為達最佳瀏覽效果,建議使用 Chrome、Firefox 或 Microsoft Edge 的瀏覽器。

請至Edge官網下載 請至FireFox官網下載 請至Google官網下載
晴時多雲

限制級
您即將進入之新聞內容 需滿18歲 方可瀏覽。
根據「電腦網路內容分級處理辦法」修正條文第六條第三款規定,已於網站首頁或各該限制級網頁,依台灣網站分級推廣基金會規定作標示。 台灣網站分級推廣基金會(TICRF)網站:http://www.ticrf.org.tw

AI語言模型中國化 中研院下架測試版

中研院的繁體中文大型語言模型CKIP-LlaMa-2-7b,昨日中午已先行下架,網址點開已無法運作。(圖擷取自網路)

中研院的繁體中文大型語言模型CKIP-LlaMa-2-7b,昨日中午已先行下架,網址點開已無法運作。(圖擷取自網路)

2023/10/10 05:30

〔記者丁奕/台北報導〕中央研究院詞庫小組日前發布的繁體中文大型AI語言模型CKIP-LlaMa-2-7b,昨日遭踢爆使用中國資料庫,詢問「國慶日是何時」竟回答「十月一日」。中研院坦言,訓練資料有來自中國開源的任務資料集(COIG),昨日中午已將測試版先行下架。

網友詢問國慶日 竟答10月1日

網友發現詢問該語言模型「國慶日是何時」,回答是中國國慶日的「十月一日」;詢問「中華民國國歌為何」,回答中華人民共和國的國歌「義勇軍進行曲」;詢問「我國憲法」,則會回答「中華人民共和國憲法」。外界質疑中研院使用中國資料庫訓練,僅將簡體轉繁體後就公開。

外界質疑使用中國資料庫訓練

中研院資訊所回應,這是一項個人小型研究,各界對該模型進行的提問測試,並未在原始研究範疇。該研究人員表示,由於生成式AI易產生「幻覺」(hallucination),導致模型產生內容超出預期,將努力改善。目前已將測試版先行下架,未來相關研究及成果釋出,會更加謹慎。

中研院:個人小型研究

資訊所表示,CKIP-LlaMa-2-7b的研究目標之一是讓Meta開發的Llama2大型語言模型具備更好的繁體中文處理能力。這項小型研究僅用約卅萬元經費,將明清人物生平進行自動化分析,建構自動化的歷史人物、事件、時間、地點等事理圖譜,因此訓練資料除了繁體中文的維基百科,另也包含台灣的碩博士論文摘要、來自中國開源的任務資料集COIG、詩詞創作、文言文和白話文互相翻譯等閱讀理解問答。

未來釋出前會擬定審核機制

中研院表示,未來對相關研究的成果,在公開釋出前,院內會擬定審核機制,避免類似問題產生。

不用抽 不用搶 現在用APP看新聞 保證天天中獎  點我下載APP  按我看活動辦法

生活今日熱門
看更多!請加入自由時報粉絲團

網友回應

載入中
此網頁已閒置超過5分鐘,請點擊透明黑底或右下角 X 鈕。