技術超強!中國古籍文字自動識別賽 中研院團隊準確率逾9成奪冠
〔記者楊媛婷/台北報導〕歷史研究的基礎之一在於文獻的判讀,過去要將歷史文獻數位化,必須倚賴大量人力、時間投入打字、建檔,中研院數位文化中心開發的「中文古籍光學字元辨識技術」可將中文古籍文本數位圖像自動轉為文字,日前參與國際賽事,打敗中國、香港、美國等共23組團隊,該技術準確度近91%,以大幅領先態勢奪冠。
光學字元辨識(Optical Character Recognition, OCR)技術已能結合人工智慧進行自動辨識,但目前相關字元自動辨識賽事多半都是以英文文本為主,中文自動辨識競賽以商用為主,這次由香港中文大學主辦的「中國古籍文字自動識別挑戰賽」則是少見中文古籍的自動辨識賽事。
由於該賽事須在10天賽程中,每天在一個小時內辨識主辦單位上傳的50張中文古籍圖像,評判標準包含正確識別的字數(錯誤識別字則扣分)、正確識別文字的行列順序與位置。意即除文字的正確率,排版的正確率亦納入評比範圍。
帶領中研院數位文化中心團隊,參與該賽事的史語所研究助技師王祥安表示,這次賽事中提供的清代古籍圖像大多刻意挑選文字透底、圖像歪斜、含大小字並列與混合,或夾雜異體字、罕用字與肉眼無法辨識之文字,甚至還有書頁破損、有污漬等問題的高難度版本,但團隊得益於該院史語研究所建置的漢籍資料庫,並透過逾10項圖像處理、文字處理與機器學習技術,包括雜訊去除、版面分析、標記與文字偵測、文字辨識、根據語言模型進行錯字修正、文字序列輸出等,進行多重處理,也因得益於人工機器智慧學習技術、影像識別技術突破,最後以近91%的準確度,打敗其他國家隊伍。
王祥安進一步表示,該項技術將大幅加快歷史文件數位建檔的速度,舉例來說,該套系統一天就可以辨識達1萬頁的古籍,如果過去靠人工建檔,若以單人作業來說,費時超過一個月,另該套系統不只可運用在中文隸書體,只要有相似的文字樣態、形式,草書、日文、韓文的書籍也同樣都可以辨識,他也透露,在該賽事奪冠後,已有日本相關領域的學者表達濃厚興趣,希望也可以藉由該系統加速歷史文件數位化。
「中國古籍文字自動識別挑戰2021」吸引中國13組、香港5組、台灣4組、美國1組參賽隊伍角逐,中研院團隊以近91%準確度奪冠,中國華南理工大學電子與信息學院則以86.1%準確率,位居亞軍;季軍為中國科技(北京)有限公司(DeepBlueAI),準確率為84.6%。