限制級

您即將進入之新聞內容需滿18歲方可瀏覽。

根據「電腦網路內容分級處理辦法」修正條文第六條第三款規定，已於網站首頁或各該限制級網頁，依台灣網站分級推廣基金會規定作標示。台灣網站分級推廣基金會（TICRF）網站：http://www.ticrf.org.tw

首頁　>　生活

技術超強！中國古籍文字自動識別賽中研院團隊準確率逾9成奪冠

中研院團隊將含文字透底問題、大小字並列與混合等高挑戰性的中國古籍文本圖像（左），經字元偵測技術（中），自動辨識為文字檔（右）。（中研院提供）

2021/05/05 19:07

〔記者楊媛婷／台北報導〕歷史研究的基礎之一在於文獻的判讀，過去要將歷史文獻數位化，必須倚賴大量人力、時間投入打字、建檔，中研院數位文化中心開發的「中文古籍光學字元辨識技術」可將中文古籍文本數位圖像自動轉為文字，日前參與國際賽事，打敗中國、香港、美國等共23組團隊，該技術準確度近91%，以大幅領先態勢奪冠。

光學字元辨識（Optical Character Recognition, OCR）技術已能結合人工智慧進行自動辨識，但目前相關字元自動辨識賽事多半都是以英文文本為主，中文自動辨識競賽以商用為主，這次由香港中文大學主辦的「中國古籍文字自動識別挑戰賽」則是少見中文古籍的自動辨識賽事。

由於該賽事須在10天賽程中，每天在一個小時內辨識主辦單位上傳的50張中文古籍圖像，評判標準包含正確識別的字數（錯誤識別字則扣分）、正確識別文字的行列順序與位置。意即除文字的正確率，排版的正確率亦納入評比範圍。

帶領中研院數位文化中心團隊，參與該賽事的史語所研究助技師王祥安表示，這次賽事中提供的清代古籍圖像大多刻意挑選文字透底、圖像歪斜、含大小字並列與混合，或夾雜異體字、罕用字與肉眼無法辨識之文字，甚至還有書頁破損、有污漬等問題的高難度版本，但團隊得益於該院史語研究所建置的漢籍資料庫，並透過逾10項圖像處理、文字處理與機器學習技術，包括雜訊去除、版面分析、標記與文字偵測、文字辨識、根據語言模型進行錯字修正、文字序列輸出等，進行多重處理，也因得益於人工機器智慧學習技術、影像識別技術突破，最後以近91%的準確度，打敗其他國家隊伍。

王祥安進一步表示，該項技術將大幅加快歷史文件數位建檔的速度，舉例來說，該套系統一天就可以辨識達1萬頁的古籍，如果過去靠人工建檔，若以單人作業來說，費時超過一個月，另該套系統不只可運用在中文隸書體，只要有相似的文字樣態、形式，草書、日文、韓文的書籍也同樣都可以辨識，他也透露，在該賽事奪冠後，已有日本相關領域的學者表達濃厚興趣，希望也可以藉由該系統加速歷史文件數位化。

「中國古籍文字自動識別挑戰2021」吸引中國13組、香港5組、台灣4組、美國1組參賽隊伍角逐，中研院團隊以近91%準確度奪冠，中國華南理工大學電子與信息學院則以86.1%準確率，位居亞軍；季軍為中國科技（北京）有限公司（DeepBlueAI），準確率為84.6%。