為達最佳瀏覽效果,建議使用 Chrome、Firefox 或 Microsoft Edge 的瀏覽器。

請至Edge官網下載 請至FireFox官網下載 請至Google官網下載
晴時多雲

限制級
您即將進入之新聞內容 需滿18歲 方可瀏覽。
根據「電腦網路內容分級處理辦法」修正條文第六條第三款規定,已於網站首頁或各該限制級網頁,依台灣網站分級推廣基金會規定作標示。 台灣網站分級推廣基金會(TICRF)網站:http://www.ticrf.org.tw

客家文化數位化 台灣客語語料庫系統今上線

客語語料庫系統今日正式上線,客委會表示,未來將有助於客語研究與教學推展,並作為發展客語語音數位應用的基礎。(記者羅綺攝)

客語語料庫系統今日正式上線,客委會表示,未來將有助於客語研究與教學推展,並作為發展客語語音數位應用的基礎。(記者羅綺攝)

2021/12/24 19:13

〔記者羅綺/台北報導〕數位化時代來臨!客家委員會透過建置AI客語語料庫,保存客家文化,至今已收錄超過600萬字客語資料。今日客語語料庫系統正式上線開放各界使用,客委會表示,未來將有助於客語研究與教學推展,並作為發展客語語音數位應用的基礎。

台灣的客語在過去50年以來,受到不當的打壓,使得客語迅速流失,客委會為了讓客語永續傳承、保存珍貴語料,自106年底開始建置台灣客語語料庫,將文字及語音數位化,創建台灣第一個本土語言語料庫,並結合AI技術,讓客語能與世界上強勢語言,如英語、日語等串聯對話,當國外的朋友要認識客語時,透過客語語料庫AI技術也能互相溝通。

客委會委託國立政治大學建置台灣客語語料庫,以全台客語書寫的客語文本及以客語發音的口語內容作為語料來源。客委會表示,在書面語料方面,蒐羅已出版或對外發表的書面文本,並藉此契機,將台灣客語早期珍貴的作品到近期出版品盤點;而在口語語料部分,來源包含電視節目,或是由執行團隊親自採錄的客語口說內容,如訪談、演講、日常生活對話、說故事等,網址為https://corpus.hakka.gov.tw/

客委會指出,語料庫所收錄的語料都經過轉寫,以及請專家進行文字校訂,並由系統斷詞;口語語料則再經專家人工聽取音檔、標記時間碼,以供系統辨識並串接文字及音訊區段。

客語語料庫的團隊主持人、政大英語系教授賴惠玲表示,客語語料庫是跨領域合作的產物,建置過程相當耗時費力,必須仰賴語言學、資訊工程、傳播領域的專家學們,帶領團隊進行語料蒐集、語料處理、系統建置等程序,才能將語言加工後並轉化成資訊,進一步串聯其他語言,最後結合成可被利用的工具語言。

台灣客語語料庫系統具有多項功能,一是資料視覺化與媒體展示,在入口網頁設有客語常用詞文字雲、客語特色詞彙展示,方便民眾快速瀏覽客語常用詞彙,並設有「口語人物誌」,展示語料庫收錄口語語料。二是語言典藏與保存,透過書面語料及及口語語料的蒐集完成台灣客語六腔的基礎保存,展現語言多樣性。

另在教學研究與數位化應用方面,也設置了語料檢索系統及客語斷詞及詞性標注器,能作為客語學術研究、教學推廣使用,後續更能成為台灣客語數位應用的重要素材。

此外,客委會也進一步規劃並建置「台灣客語語音資料庫」,其最大的特色是擁有各腔調客語語音辨識與語音合成語料,未來可結合人工智慧技術,發展客語數位應用。

不用抽 不用搶 現在用APP看新聞 保證天天中獎  點我下載APP  按我看活動辦法

相關新聞
生活今日熱門
看更多!請加入自由時報粉絲團

網友回應

載入中
此網頁已閒置超過5分鐘,請點擊透明黑底或右下角 X 鈕。