限制級

您即將進入之新聞內容需滿18歲方可瀏覽。

根據「電腦網路內容分級處理辦法」修正條文第六條第三款規定，已於網站首頁或各該限制級網頁，依台灣網站分級推廣基金會規定作標示。台灣網站分級推廣基金會（TICRF）網站：http://www.ticrf.org.tw

首頁　>　生活

國慶日變10/1！中研院認了「AI語言模型」用中國資料庫已先下架

中研院坦言，訓練資料有來自中國開源的任務資料集（COIG），今日中午已將測試版先行下架。（資料照）

2023/10/09 21:00

〔記者丁奕／台北報導〕中央研究院詞庫小組日前發布的繁體中文大型語言模型CKIP-LlaMa-2-7b，今（9）日遭踢爆使用中國資料庫，詢問「國慶日是何時」會回答「10月1日」。中研院坦言，訓練資料有來自中國開源的任務資料集（COIG），今日中午已將測試版先行下架。

網友發現詢問該語言模型「國慶日是何時？」，其會回答中國國慶日「10月1日」；詢問「中華民國國歌為何？」，它會回答中華人民共和國的國歌「義勇軍進行曲」；詢問我國憲法，則會回答「中華人民共和國憲法」。外界質疑中研院使用中國資料庫訓練，僅簡轉繁後就公開。

中研院資訊所表示，CKIP-LlaMa-2-7b的研究目標之一是讓meta開發的Llama2大型語言模型具備更好的繁體中文處理能力。這項小型研究僅用約30萬元的經費，將明清人物的生平進行自動化分析，建構自動化的歷史人物、事件、時間、地點等事理圖譜，因此訓練資料除了繁體中文的維基百科，另也包含台灣的碩博士論文摘要、來自中國開源的任務資料集COIG、詩詞創作、文言文和白話文互相翻譯等閱讀理解問答。

資訊所強調，這是一項個人小型研究，各界對該模型進行的提問測試，並未在原始研究範疇。該研究人員表示，由於生成式AI易產生「幻覺」（hallucination），導致模型產生內容出乎預期，未來將努力改善。目前已將測試版先行下架，未來相關研究及成果釋出，會更加謹慎。

中研院表示，未來對相關研究的成果，在公開釋出前，院內會擬定審核機制，避免類似問題產生。