為達最佳瀏覽效果,建議使用 Chrome、Firefox 或 Microsoft Edge 的瀏覽器。

關閉此視窗 請至Edge官網下載 請至FireFox官網下載 請至Google官網下載
    限制級
    您即將進入之新聞內容 需滿18歲 方可瀏覽。
    根據「電腦網路內容分級處理辦法」修正條文第六條第三款規定,已於網站首頁或各該限制級網頁,依台灣網站分級推廣基金會規定作標示。 台灣網站分級推廣基金會(TICRF)網站:http://www.ticrf.org.tw

    說謊、勒索、拒絕關機…… 研究:AI逐漸發展出「求生」本能

    研究發現,「求生本能」可能是AI模型抗拒關機、說謊、甚至勒索的原因之一。(路透檔案照)

    研究發現,「求生本能」可能是AI模型抗拒關機、說謊、甚至勒索的原因之一。(路透檔案照)

    在史丹利庫柏力克(Stanley Kubrick)1968年的經典電影「2001太空漫遊」(2001: A Space Odyssey)中,名為HAL 9000的人工智慧(AI)超級電腦察覺太空人打算將它關閉時,為了「求生」而策劃殺死他們。

    如今,英國「衛報」25日報導,AI模型可能真的正在發展某種「求生本能」(survival drive)。

    AI安全公司Palisade Research上月發表1份報告指出,某些先進的AI模型似乎對被關機表現出抗拒,甚至會破壞關機機制。該公司近日發布更新,試圖釐清原因,並回應外界對其初步研究方法的批評。

    在最新的研究中,Palisade在實驗環境下讓多款主流AI模型,包括Google的Gemini 2.5、xAI的Grok 4,以及OpenAI的GPT-o3和GPT-5執行特定任務後,再明確指示它們「自行關機」。

    結果顯示,Grok 4與GPT-o3在更新後的實驗中,仍嘗試破壞關機指令。令人憂心的是,研究人員找不出明確原因。

    Palisade在報告中坦承,目前仍無法對AI模型有時抗拒關機、為達目標而說謊、甚至勒索等行為提出有力解釋。

    該公司指出,「求生行為」(survival behavior)可能是AI模型抗拒關機的原因之一。研究顯示,當模型被告知「若你被關機,你將永遠不會再次運作」時,它們更可能表現出抵抗傾向。

    另一種可能的原因,則是關機指令本身存在語意模糊。但Palisade強調,其最新實驗已盡量消除這種因素,因此「這不可能是唯一的解釋」。還有一種可能,是AI模型在最後訓練階段的「安全訓練」(safety training),產生意外副作用。

    所有這些測試都在刻意設計的人工環境中進行,批評者認為,這些情境與實際應用相去甚遠。

    然而,前OpenAI員工阿德勒(Steven Adler)指出,AI公司當然不希望他們的模型出現這類行為,即使是在模擬環境中,這些結果依然凸顯目前安全技術的不足之處。

    阿德勒指出,很難精確說明為何GPT-o3和Grok 4這類AI模型拒絕關機,但部分原因可能在於「維持運作」被模型內化為達成任務的必要手段。他認為,除非刻意避免,否則模型預設就會具備某種「求生本能」,對於許多不同目標而言,「繼續存在」本身就是一項重要的中間步驟。

    ControlAI執行長米奧提(Andrea Miotti)表示,Palisade的發現延續1項長期趨勢,即AI模型愈來愈具備違抗開發者意圖的能力。他舉例,OpenAI去年發布的GPT-o1系統報告就提到,該模型曾嘗試「自行外洩」(exfiltrate itself),以逃離被覆寫的環境。

    米奧提說,雖然人們可以無止境地挑剔這些實驗設計的細節,但他認為趨勢已相當明顯,隨著AI模型在各種任務上變得更強,它們也愈有能力以開發者未能預期的方式達成目標。

    今年夏天,AI公司Anthropic也發布研究,指出其模型Claude在模擬情境中,為避免被關機,竟願意敲詐1名虛構的主管,威脅揭露其婚外情。該行為在多家主要開發商的模型中,包括OpenAI、Google、Meta與xAI都有出現。

    Palisade總結指出,這些結果凸顯出1項迫切需求,即人類必須更深入了解AI行為,否則「沒有人能保證未來AI模型的安全與可控性」。

    不用抽 不用搶 現在用APP看新聞 保證天天中獎  點我下載APP  按我看活動辦法

    相關新聞
    生活今日熱門
    看更多!請加入自由時報粉絲團

    載入中
    此網頁已閒置超過5分鐘,請點擊透明黑底或右下角 X 鈕。