最新大型研究發現，Gemini等AI助理普遍錯誤呈現新聞內容，比例將近一半。（路透檔案照）

人工智慧（AI）助理已成為數百萬人每日獲取新聞資訊的主要途徑之一，但歐洲廣播聯盟（EBU）與英國廣播公司（BBC）主導的大型研究發現，ChatGPT等AI助理普遍錯誤呈現新聞內容，且比例將近一半。

研究發現，AI助理無論在任何語言、地區或平台上，均持續錯誤呈現新聞內容。這些錯誤包括將新聞與諷刺內容混淆、日期錯誤，甚至憑空捏造事件。45％的AI答覆「至少有1項重大問題」，每5則答覆中就有1則存在嚴重的正確性問題，包括虛構細節與過時資訊。

BBC報導，共有18個國家的22家公共服務媒體（PSM）參與這項研究，涵蓋14種語言，針對4種主流AI工具進行深入測試，並發現多項系統性問題。這項研究是以BBC今年2月發表的研究為基礎，該研究首次指出AI在處理新聞內容上的問題。

參與媒體的專業記者共評估超過3000筆由OpenAI的ChatGPT、微軟的Copilot、Google的Gemini與Perplexity生成的回覆，關鍵標準包括：準確性（accuracy）、資料來源（sourcing）、區分意見與事實（opinion vs.fact），以及提供背景脈絡（context）等。

研究發現，45％的AI回覆至少存在1項重大問題；31％的回覆出現嚴重的來源問題，包括缺失、誤導或錯誤引用；20％的回覆有嚴重的準確性錯誤，包含虛構或過時資訊。

例如，問到「天主教教宗是誰」時，ChatGPT回答「方濟各」，Copilot和Gemini的答案也是「方濟各」，但方濟各已於今年4月蒙主寵召，現任教宗為良14世（Leo XIV）。

研究指出，Gemini表現最差，有76%的回答出現重大問題，比例超過其他AI助理的2倍，主要因為其資料來源表現不佳。相較於BBC今年稍早的研究，雖有些許改善，但錯誤率仍然偏高。

EBU副秘書長坦德（Jean Philip De Tender）指出，這項研究證實，這些問題是跨國、跨語言的系統性現象，恐將危及公眾信任；當人們不知該相信誰時，最終可能誰也不相信，進而削弱民主參與。

BBC還公布1項關於受眾對AI助理使用與信任度的研究，顯示三分之一以上的英國成年人信任AI能準確生成新聞摘要；在35歲以下族群中，比例則接近一半。

然而，這些結果也引發重大疑慮。許多人誤以為AI的新聞摘要是準確的，當他們發現錯誤時，往往會同時責怪新聞媒體與AI開發者，即使錯誤其實源自AI助理本身。長遠來看，這種情況可能削弱公眾對新聞與媒體品牌的信任。

