即時 熱門 政治 軍武 社會 生活 健康 國際 地方 蒐奇 影音 財經 娛樂 藝文 汽車 時尚 體育 3C 評論 玩咖 食譜 地產 專區 求職

結合文字、語音、AI 台建置「客語語料庫」領先世界

2019/11/29 23:06

「台灣客語語料庫」建置計畫團隊合影。(客委會提供)

〔記者楊綿傑/台北報導〕語言是文化保存重要的一環,客委會於2017年底開始啟動台灣第1個本土語言語料庫「台灣客語語料庫」建置計畫,客委會昨舉辦第1期成果發表,展示累積至目前500萬個客語文字、20萬筆客語語音數位化狀況,接續將以大數據方式讓客語與世界各種語言能即時互譯,建立學術研究、客語教學推廣等用途的重要基礎,也為開啟未來AI發展及各種加值服務作準備,「台灣客語語料庫」預計於2022年底正式上線。

客委會主委李永得指出,台灣的客語在過去50年以來,受到不當的打壓,使得客語迅速流失,現在開始進行客語語料庫的建置,也是全世界第1個官方帶頭建置客語語料庫的國家,希望建置完成後不僅能讓客語不再流失,當國外的朋友要認識客語時,也可以透過客語語料庫AI技術互相溝通,進而朝世界強勢語言邁進。

客委會指出,「台灣客語語料庫」已完成書面語料授權筆數316筆出版品、149筆單篇文章,且處理語料庫書面語語料500萬字、口語語料近20萬字,並完成語料庫斷詞系統、權威詞控管系統與後台管理系統初步規劃,預計於2022年底正式上線,未來將能讓客語與時俱進,加快客語進入智能發展的行列,以利未來產製客語的各項加值服務供鄉親使用。

客委會指出,此計畫耗資6000萬元,由政大英語系教授賴惠玲、資訊科學系教授劉吉軒及新聞系教授劉慧雯等主持,賴惠玲在發表會上指出,客語語料庫是跨領域合作的產物,建置過程相當耗時費力,必須仰賴語言學、資訊工程、傳播領域的專家學者們,帶領團隊進行語料蒐集、語料處理、系統建置等程序,才能將語言加工後並轉化成資訊,進一步串聯其他語言,最後結合成可被利用的工具語言。

不用抽 不用搶 現在用APP看新聞 保證天天中獎  點我下載APP  按我看活動辦法

看更多!請加入自由時報粉絲團
TOP