客家文化數位化 台灣客語語料庫系統今上線
客語語料庫系統今日正式上線,客委會表示,未來將有助於客語研究與教學推展,並作為發展客語語音數位應用的基礎。(記者羅綺攝)
〔記者羅綺/台北報導〕數位化時代來臨!客家委員會透過建置AI客語語料庫,保存客家文化,至今已收錄超過600萬字客語資料。今日客語語料庫系統正式上線開放各界使用,客委會表示,未來將有助於客語研究與教學推展,並作為發展客語語音數位應用的基礎。
台灣的客語在過去50年以來,受到不當的打壓,使得客語迅速流失,客委會為了讓客語永續傳承、保存珍貴語料,自106年底開始建置台灣客語語料庫,將文字及語音數位化,創建台灣第一個本土語言語料庫,並結合AI技術,讓客語能與世界上強勢語言,如英語、日語等串聯對話,當國外的朋友要認識客語時,透過客語語料庫AI技術也能互相溝通。
客委會委託國立政治大學建置台灣客語語料庫,以全台客語書寫的客語文本及以客語發音的口語內容作為語料來源。客委會表示,在書面語料方面,蒐羅已出版或對外發表的書面文本,並藉此契機,將台灣客語早期珍貴的作品到近期出版品盤點;而在口語語料部分,來源包含電視節目,或是由執行團隊親自採錄的客語口說內容,如訪談、演講、日常生活對話、說故事等,網址為https://corpus.hakka.gov.tw/。
客委會指出,語料庫所收錄的語料都經過轉寫,以及請專家進行文字校訂,並由系統斷詞;口語語料則再經專家人工聽取音檔、標記時間碼,以供系統辨識並串接文字及音訊區段。
客語語料庫的團隊主持人、政大英語系教授賴惠玲表示,客語語料庫是跨領域合作的產物,建置過程相當耗時費力,必須仰賴語言學、資訊工程、傳播領域的專家學們,帶領團隊進行語料蒐集、語料處理、系統建置等程序,才能將語言加工後並轉化成資訊,進一步串聯其他語言,最後結合成可被利用的工具語言。
台灣客語語料庫系統具有多項功能,一是資料視覺化與媒體展示,在入口網頁設有客語常用詞文字雲、客語特色詞彙展示,方便民眾快速瀏覽客語常用詞彙,並設有「口語人物誌」,展示語料庫收錄口語語料。二是語言典藏與保存,透過書面語料及及口語語料的蒐集完成台灣客語六腔的基礎保存,展現語言多樣性。
另在教學研究與數位化應用方面,也設置了語料檢索系統及客語斷詞及詞性標注器,能作為客語學術研究、教學推廣使用,後續更能成為台灣客語數位應用的重要素材。
此外,客委會也進一步規劃並建置「台灣客語語音資料庫」,其最大的特色是擁有各腔調客語語音辨識與語音合成語料,未來可結合人工智慧技術,發展客語數位應用。
-
時裝融合客家茶元素 桃市天光雜貨店展售
-
110年度客語能力初級認證放榜! 客委會:合格率48%
-
繳稅失血免驚!網路這樣辦大可暢快省
-
苗栗市國小生活客語團體賽 學生表演融入防疫觀念
-
苗縣議員爭取頭份市區設高中職 徐耀昌:研究是否可行
-
中台灣房仲龍頭 業績漲六成
-
清晨基隆14.5度!日夜溫差大 明低溫再探17度
-
05/15 各報重點新聞一覽
-
公立醫院帶頭!「賴清德恩師」陳志鴻:台北榮總6月調薪
-
墾丁國小畢業典禮在海裡 孩子興奮直呼「我們最帥!」
-
花蓮地震重創山區觀光!福壽山、武陵、梨山、谷關住宿剩2成
-
基隆今晨下探14.5度 週五前防早晚低溫、週末水氣再增
-
「七美尚水七美一定發」蛋糕 成為網路爆紅款
-
今晚東北季風增強留意郊區低溫 下週中後期轉陰雨
生活今日熱門