國慶日變10/1!中研院認了「AI語言模型」用中國資料庫 已先下架
![國慶日變10/1!中研院認了「AI語言模型」用中國資料庫 已先下架](https://img.ltn.com.tw/Upload/news/600/2023/10/09/phpPRNZO0.jpg)
中研院坦言,訓練資料有來自中國開源的任務資料集(COIG),今日中午已將測試版先行下架。(資料照)
〔記者丁奕/台北報導〕中央研究院詞庫小組日前發布的繁體中文大型語言模型CKIP-LlaMa-2-7b,今(9)日遭踢爆使用中國資料庫,詢問「國慶日是何時」會回答「10月1日」。中研院坦言,訓練資料有來自中國開源的任務資料集(COIG),今日中午已將測試版先行下架。
網友發現詢問該語言模型「國慶日是何時?」,其會回答中國國慶日「10月1日」;詢問「中華民國國歌為何?」,它會回答中華人民共和國的國歌「義勇軍進行曲」;詢問我國憲法,則會回答「中華人民共和國憲法」。外界質疑中研院使用中國資料庫訓練,僅簡轉繁後就公開。
中研院資訊所表示,CKIP-LlaMa-2-7b的研究目標之一是讓meta開發的Llama2大型語言模型具備更好的繁體中文處理能力。這項小型研究僅用約30萬元的經費,將明清人物的生平進行自動化分析,建構自動化的歷史人物、事件、時間、地點等事理圖譜,因此訓練資料除了繁體中文的維基百科,另也包含台灣的碩博士論文摘要、來自中國開源的任務資料集COIG、詩詞創作、文言文和白話文互相翻譯等閱讀理解問答。
資訊所強調,這是一項個人小型研究,各界對該模型進行的提問測試,並未在原始研究範疇。該研究人員表示,由於生成式AI易產生「幻覺」(hallucination),導致模型產生內容出乎預期,未來將努力改善。目前已將測試版先行下架,未來相關研究及成果釋出,會更加謹慎。
中研院表示,未來對相關研究的成果,在公開釋出前,院內會擬定審核機制,避免類似問題產生。
![](https://img.ltn.com.tw/Upload/news/600/2023/10/09/4453586_1_1.jpg)
中研院的繁體中文大型語言模型CKIP-LlaMa-2-7b,今(9)日中午已先行下架,網址點開已無法運作。(圖擷取自網路)
-
舉藝術家吃自身細胞肉 文化部插旗國科會「KISS SCIENCE」
-
避免高教人才斷層 中研院9月起調升博士生獎助學金
-
高綠覆率 優質環境 藍田公園生活圈輕豪宅受寵
-
諾貝爾物理獎表彰阿秒光脈衝 可助半導體產業
-
新月大河 新月橋河岸首排2~3房
-
自由說新聞》美國會「這幕」護台嗆中!最新「台灣人民調」曝光
-
緬甸詐騙園區釋放百餘外籍人士 刑事局:確認有7名台籍者
-
捷運東環段出入口規劃基座過高 都審會要求修正
-
竹聯幫弘仁會「乾坤車隊」專擔綱境外洗錢車手 警逮11人送辦
-
台北轉運站周邊400機車格 3/3起改採計時收費
-
新北當鋪當街被開51槍 竹聯幫弘仁會幹部判10年
-
經北市黨部「審核」通過 國民黨確定終止罷免王世堅
-
台中新光三越氣爆 國民黨:向受傷民眾及家屬致上最誠摯慰問
臺北市今日熱門