為達最佳瀏覽效果,建議使用 Chrome、Firefox 或 Microsoft Edge 的瀏覽器。

請至Edge官網下載 請至FireFox官網下載 請至Google官網下載
晴時多雲

限制級
您即將進入之新聞內容 需滿18歲 方可瀏覽。
根據「電腦網路內容分級處理辦法」修正條文第六條第三款規定,已於網站首頁或各該限制級網頁,依台灣網站分級推廣基金會規定作標示。 台灣網站分級推廣基金會(TICRF)網站:http://www.ticrf.org.tw

結合文字、語音、AI 台建置「客語語料庫」領先世界

「台灣客語語料庫」建置計畫團隊合影。(客委會提供)

「台灣客語語料庫」建置計畫團隊合影。(客委會提供)

2019/11/29 23:06

〔記者楊綿傑/台北報導〕語言是文化保存重要的一環,客委會於2017年底開始啟動台灣第1個本土語言語料庫「台灣客語語料庫」建置計畫,客委會昨舉辦第1期成果發表,展示累積至目前500萬個客語文字、20萬筆客語語音數位化狀況,接續將以大數據方式讓客語與世界各種語言能即時互譯,建立學術研究、客語教學推廣等用途的重要基礎,也為開啟未來AI發展及各種加值服務作準備,「台灣客語語料庫」預計於2022年底正式上線。

客委會主委李永得指出,台灣的客語在過去50年以來,受到不當的打壓,使得客語迅速流失,現在開始進行客語語料庫的建置,也是全世界第1個官方帶頭建置客語語料庫的國家,希望建置完成後不僅能讓客語不再流失,當國外的朋友要認識客語時,也可以透過客語語料庫AI技術互相溝通,進而朝世界強勢語言邁進。

客委會指出,「台灣客語語料庫」已完成書面語料授權筆數316筆出版品、149筆單篇文章,且處理語料庫書面語語料500萬字、口語語料近20萬字,並完成語料庫斷詞系統、權威詞控管系統與後台管理系統初步規劃,預計於2022年底正式上線,未來將能讓客語與時俱進,加快客語進入智能發展的行列,以利未來產製客語的各項加值服務供鄉親使用。

客委會指出,此計畫耗資6000萬元,由政大英語系教授賴惠玲、資訊科學系教授劉吉軒及新聞系教授劉慧雯等主持,賴惠玲在發表會上指出,客語語料庫是跨領域合作的產物,建置過程相當耗時費力,必須仰賴語言學、資訊工程、傳播領域的專家學者們,帶領團隊進行語料蒐集、語料處理、系統建置等程序,才能將語言加工後並轉化成資訊,進一步串聯其他語言,最後結合成可被利用的工具語言。

不用抽 不用搶 現在用APP看新聞 保證天天中獎  點我下載APP  按我看活動辦法

相關新聞
生活今日熱門
看更多!請加入自由時報粉絲團

網友回應

此網頁已閒置超過5分鐘,請點擊透明黑底或右下角 X 鈕。