當前位置:文化中國>

“漢典重光”首批實現海外20萬頁中文古籍“數字化回歸”

發佈時間: 2021-05-19 09:11:53 | 來源: 中國新聞網 | 作者: | 責任編輯: 秦金月

中新社北京5月18日電 (記者孫自法)中國海外古籍“數字化回歸”項目“漢典重光”平臺18日下午在北京中國科技館正式發佈,通過先進的人工智慧(AI)技術,一批珍藏于美國加州大學伯克利分校的中文古籍善本,以數字化方式回歸故土,落地“漢典重光”古籍平臺。

“漢典重光”平臺稱,首批20萬頁古籍已完成數字化,並沉澱為覆蓋3萬多字的古籍字典,公眾可通過該平臺翻閱、檢索古籍,這20萬頁古籍的識別準確率達到97.5%。

“漢典重光”項目由阿里巴巴公益基金會、四川大學、美國加州大學伯克利分校、中國國家圖書館、浙江圖書館合作開展,旨在尋覓流散海外的中國古籍並將其數字化、公共化,讓普通人也能親近古籍,通過古籍與先賢對話,與優秀傳統文化對話。

2019年,阿里巴巴和四川大學提出“數字化回歸”設想,獲得中文藏書量排名全美第三的加州大學伯克利分校支援並達成共識,將伯克利東亞圖書館的中文古籍善本逐步數字化。

本次首批數字化的20萬頁古籍中,包含40余種珍貴宋元刻本、寫本;明清至民國時期著名學者錢謙益、翁方綱、王韜的抄本、稿本;著名藏書樓嘉業堂、密韻樓的抄本,還有清文瀾閣《四庫全書》零本等。

為將伯克利提供古籍的掃描圖片和編目數據全部文字化,阿里巴巴達摩院技術團隊與四川大學專家聯手研發出一套全新的古籍識別系統,以97.5%的準確率完成對20萬頁古籍的整體識別。目前,該系統已能批量識別百本古籍,並沉澱覆蓋3萬多字的古籍字典。

比起專家錄入,這套人機交互的識別系統將效率提升近30倍。隨著古籍識別規模的擴增,機器還會自我進化,不斷提升準確率和效率。阿里巴巴達摩院院長張建鋒表示,阿裏計劃將這套技術工具連同古籍數字化平臺一併捐贈,交由權威公共機構長期運營,同時,阿裏仍將在古籍數字化工作上持續投入人力物力。

據了解,因邦交、貿易、戰亂等,歷史上中國古籍時有出海,近代以來,戰爭和動蕩更加劇了古籍的損毀和流散。據不完全估計,散居海外的中國古籍超過40萬部、400萬冊,包括甲骨簡牘、敦煌遺書、宋元善本、明清精槧、拓本輿圖、少數民族文獻等。(完)

分享到: