合合資訊及2所高校發佈業內首個古彝文編碼數據庫

發佈時間:2023-09-26 來源:中國網商務 作者:周健 責任編輯:沈曄

近期,合合資訊聯合上海大學、華南理工大學,發佈業內首個古彝文基礎編碼數據庫,以智慧圖像處理、智慧文字識別等AI技術,開展統一編碼,古彝文在數字社會中有了“身份證號碼”。

以往,古文字主要通過人工識別、校正和進行文獻編撰,工作量繁多且效率低下。近年來,人工智慧,特別是深度學習技術的發展,為古文字識別提供了高效的工具。據悉,古彝文數字化方面的成果相對較少,一方面,古彝文字符集龐大,且缺乏成熟的手寫樣本庫。另一方面,在彝文的發展過程中,由於種種因素,導致異體字、變體字豐富,字符和釋義“一對多、多對一”是常態。

基於上述情況,合合資訊與華南理工大學共同成立的文檔圖像分析識別與理解聯合實驗室,聯合上海大學社會學院組建研究團隊,共同解決數據庫建設中的學術性、技術性難點。

在對7萬6千字符的樣本進行訓練後,團隊成功建立了包含上千個古彝文基礎編碼的數據庫。通過API數據介面等形式,該數據庫有望幫助高校研究人員、文化工作者、興趣愛好者等人群,快速找到古彝文在字典中的讀音、漢語釋義、用法,如同“大字典”一般,幫助人們降低古彝文書籍、文獻閱讀的門檻。

合合資訊在智慧文字識別領域已有17年深耕經驗。此前,在AI識別甲骨文、西周鐘鼎文(金文)領域,公司已進行了領先的探索和研究,為古彝文識別積累了經驗,奠定了良好的技術基礎。

相關資訊

中文 English Français Deutsch 日本語
Русский язык Español عربي 한국어

中國網客戶端

國家重點新聞網站,9語種權威發佈

立即下載