研究發現，「求生本能」可能是AI模型抗拒關機、說謊、甚至勒索的原因之一。（路透檔案照）

在史丹利庫柏力克（Stanley Kubrick）1968年的經典電影「2001太空漫遊」（2001: A Space Odyssey）中，名為HAL 9000的人工智慧（AI）超級電腦察覺太空人打算將它關閉時，為了「求生」而策劃殺死他們。

如今，英國「衛報」25日報導，AI模型可能真的正在發展某種「求生本能」（survival drive）。

請繼續往下閱讀...

AI安全公司Palisade Research上月發表1份報告指出，某些先進的AI模型似乎對被關機表現出抗拒，甚至會破壞關機機制。該公司近日發布更新，試圖釐清原因，並回應外界對其初步研究方法的批評。

在最新的研究中，Palisade在實驗環境下讓多款主流AI模型，包括Google的Gemini 2.5、xAI的Grok 4，以及OpenAI的GPT-o3和GPT-5執行特定任務後，再明確指示它們「自行關機」。

結果顯示，Grok 4與GPT-o3在更新後的實驗中，仍嘗試破壞關機指令。令人憂心的是，研究人員找不出明確原因。

Palisade在報告中坦承，目前仍無法對AI模型有時抗拒關機、為達目標而說謊、甚至勒索等行為提出有力解釋。

該公司指出，「求生行為」（survival behavior）可能是AI模型抗拒關機的原因之一。研究顯示，當模型被告知「若你被關機，你將永遠不會再次運作」時，它們更可能表現出抵抗傾向。

另一種可能的原因，則是關機指令本身存在語意模糊。但Palisade強調，其最新實驗已盡量消除這種因素，因此「這不可能是唯一的解釋」。還有一種可能，是AI模型在最後訓練階段的「安全訓練」（safety training），產生意外副作用。

所有這些測試都在刻意設計的人工環境中進行，批評者認為，這些情境與實際應用相去甚遠。

然而，前OpenAI員工阿德勒（Steven Adler）指出，AI公司當然不希望他們的模型出現這類行為，即使是在模擬環境中，這些結果依然凸顯目前安全技術的不足之處。

阿德勒指出，很難精確說明為何GPT-o3和Grok 4這類AI模型拒絕關機，但部分原因可能在於「維持運作」被模型內化為達成任務的必要手段。他認為，除非刻意避免，否則模型預設就會具備某種「求生本能」，對於許多不同目標而言，「繼續存在」本身就是一項重要的中間步驟。

ControlAI執行長米奧提（Andrea Miotti）表示，Palisade的發現延續1項長期趨勢，即AI模型愈來愈具備違抗開發者意圖的能力。他舉例，OpenAI去年發布的GPT-o1系統報告就提到，該模型曾嘗試「自行外洩」（exfiltrate itself），以逃離被覆寫的環境。

米奧提說，雖然人們可以無止境地挑剔這些實驗設計的細節，但他認為趨勢已相當明顯，隨著AI模型在各種任務上變得更強，它們也愈有能力以開發者未能預期的方式達成目標。

今年夏天，AI公司Anthropic也發布研究，指出其模型Claude在模擬情境中，為避免被關機，竟願意敲詐1名虛構的主管，威脅揭露其婚外情。該行為在多家主要開發商的模型中，包括OpenAI、Google、Meta與xAI都有出現。

Palisade總結指出，這些結果凸顯出1項迫切需求，即人類必須更深入了解AI行為，否則「沒有人能保證未來AI模型的安全與可控性」。

熱門賽事、球星動態不漏接

不用抽 不用搶 現在用APP看新聞 保證天天中獎 點我下載APP 按我看活動辦法