為達最佳瀏覽效果,建議使用 Chrome、Firefox 或 Microsoft Edge 的瀏覽器。

請至Edge官網下載 請至FireFox官網下載 請至Google官網下載
晴時多雲

限制級
您即將進入之新聞內容 需滿18歲 方可瀏覽。
根據「電腦網路內容分級處理辦法」修正條文第六條第三款規定,已於網站首頁或各該限制級網頁,依台灣網站分級推廣基金會規定作標示。 台灣網站分級推廣基金會(TICRF)網站:http://www.ticrf.org.tw

技術超強!中國古籍文字自動識別賽 中研院團隊準確率逾9成奪冠

中研院團隊將含文字透底問題、大小字並列與混合等高挑戰性的中國古籍文本圖像(左),經字元偵測技術(中),自動辨識為文字檔(右)。(中研院提供)

中研院團隊將含文字透底問題、大小字並列與混合等高挑戰性的中國古籍文本圖像(左),經字元偵測技術(中),自動辨識為文字檔(右)。(中研院提供)

2021/05/05 19:07

〔記者楊媛婷/台北報導〕歷史研究的基礎之一在於文獻的判讀,過去要將歷史文獻數位化,必須倚賴大量人力、時間投入打字、建檔,中研院數位文化中心開發的「中文古籍光學字元辨識技術」可將中文古籍文本數位圖像自動轉為文字,日前參與國際賽事,打敗中國、香港、美國等共23組團隊,該技術準確度近91%,以大幅領先態勢奪冠。

光學字元辨識(Optical Character Recognition, OCR)技術已能結合人工智慧進行自動辨識,但目前相關字元自動辨識賽事多半都是以英文文本為主,中文自動辨識競賽以商用為主,這次由香港中文大學主辦的「中國古籍文字自動識別挑戰賽」則是少見中文古籍的自動辨識賽事。

由於該賽事須在10天賽程中,每天在一個小時內辨識主辦單位上傳的50張中文古籍圖像,評判標準包含正確識別的字數(錯誤識別字則扣分)、正確識別文字的行列順序與位置。意即除文字的正確率,排版的正確率亦納入評比範圍。

帶領中研院數位文化中心團隊,參與該賽事的史語所研究助技師王祥安表示,這次賽事中提供的清代古籍圖像大多刻意挑選文字透底、圖像歪斜、含大小字並列與混合,或夾雜異體字、罕用字與肉眼無法辨識之文字,甚至還有書頁破損、有污漬等問題的高難度版本,但團隊得益於該院史語研究所建置的漢籍資料庫,並透過逾10項圖像處理、文字處理與機器學習技術,包括雜訊去除、版面分析、標記與文字偵測、文字辨識、根據語言模型進行錯字修正、文字序列輸出等,進行多重處理,也因得益於人工機器智慧學習技術、影像識別技術突破,最後以近91%的準確度,打敗其他國家隊伍。

王祥安進一步表示,該項技術將大幅加快歷史文件數位建檔的速度,舉例來說,該套系統一天就可以辨識達1萬頁的古籍,如果過去靠人工建檔,若以單人作業來說,費時超過一個月,另該套系統不只可運用在中文隸書體,只要有相似的文字樣態、形式,草書、日文、韓文的書籍也同樣都可以辨識,他也透露,在該賽事奪冠後,已有日本相關領域的學者表達濃厚興趣,希望也可以藉由該系統加速歷史文件數位化。

「中國古籍文字自動識別挑戰2021」吸引中國13組、香港5組、台灣4組、美國1組參賽隊伍角逐,中研院團隊以近91%準確度奪冠,中國華南理工大學電子與信息學院則以86.1%準確率,位居亞軍;季軍為中國科技(北京)有限公司(DeepBlueAI),準確率為84.6%。

中研院參與賽事的數位文化中心團隊,由史語所研究助技師王祥安領軍,以超過9成的準確率打敗中國等其他國家隊伍。(中研院提供)

中研院參與賽事的數位文化中心團隊,由史語所研究助技師王祥安領軍,以超過9成的準確率打敗中國等其他國家隊伍。(中研院提供)

不用抽 不用搶 現在用APP看新聞 保證天天中獎  點我下載APP  按我看活動辦法

相關新聞
生活今日熱門
看更多!請加入自由時報粉絲團

網友回應

載入中
此網頁已閒置超過5分鐘,請點擊透明黑底或右下角 X 鈕。