說謊、勒索、拒絕關機…… 研究:AI逐漸發展出「求生」本能
研究發現,「求生本能」可能是AI模型抗拒關機、說謊、甚至勒索的原因之一。(路透檔案照)
在史丹利庫柏力克(Stanley Kubrick)1968年的經典電影「2001太空漫遊」(2001: A Space Odyssey)中,名為HAL 9000的人工智慧(AI)超級電腦察覺太空人打算將它關閉時,為了「求生」而策劃殺死他們。
如今,英國「衛報」25日報導,AI模型可能真的正在發展某種「求生本能」(survival drive)。
AI安全公司Palisade Research上月發表1份報告指出,某些先進的AI模型似乎對被關機表現出抗拒,甚至會破壞關機機制。該公司近日發布更新,試圖釐清原因,並回應外界對其初步研究方法的批評。
在最新的研究中,Palisade在實驗環境下讓多款主流AI模型,包括Google的Gemini 2.5、xAI的Grok 4,以及OpenAI的GPT-o3和GPT-5執行特定任務後,再明確指示它們「自行關機」。
結果顯示,Grok 4與GPT-o3在更新後的實驗中,仍嘗試破壞關機指令。令人憂心的是,研究人員找不出明確原因。
Palisade在報告中坦承,目前仍無法對AI模型有時抗拒關機、為達目標而說謊、甚至勒索等行為提出有力解釋。
該公司指出,「求生行為」(survival behavior)可能是AI模型抗拒關機的原因之一。研究顯示,當模型被告知「若你被關機,你將永遠不會再次運作」時,它們更可能表現出抵抗傾向。
另一種可能的原因,則是關機指令本身存在語意模糊。但Palisade強調,其最新實驗已盡量消除這種因素,因此「這不可能是唯一的解釋」。還有一種可能,是AI模型在最後訓練階段的「安全訓練」(safety training),產生意外副作用。
所有這些測試都在刻意設計的人工環境中進行,批評者認為,這些情境與實際應用相去甚遠。
然而,前OpenAI員工阿德勒(Steven Adler)指出,AI公司當然不希望他們的模型出現這類行為,即使是在模擬環境中,這些結果依然凸顯目前安全技術的不足之處。
阿德勒指出,很難精確說明為何GPT-o3和Grok 4這類AI模型拒絕關機,但部分原因可能在於「維持運作」被模型內化為達成任務的必要手段。他認為,除非刻意避免,否則模型預設就會具備某種「求生本能」,對於許多不同目標而言,「繼續存在」本身就是一項重要的中間步驟。
ControlAI執行長米奧提(Andrea Miotti)表示,Palisade的發現延續1項長期趨勢,即AI模型愈來愈具備違抗開發者意圖的能力。他舉例,OpenAI去年發布的GPT-o1系統報告就提到,該模型曾嘗試「自行外洩」(exfiltrate itself),以逃離被覆寫的環境。
米奧提說,雖然人們可以無止境地挑剔這些實驗設計的細節,但他認為趨勢已相當明顯,隨著AI模型在各種任務上變得更強,它們也愈有能力以開發者未能預期的方式達成目標。
今年夏天,AI公司Anthropic也發布研究,指出其模型Claude在模擬情境中,為避免被關機,竟願意敲詐1名虛構的主管,威脅揭露其婚外情。該行為在多家主要開發商的模型中,包括OpenAI、Google、Meta與xAI都有出現。
Palisade總結指出,這些結果凸顯出1項迫切需求,即人類必須更深入了解AI行為,否則「沒有人能保證未來AI模型的安全與可控性」。
