卷帙浩繁的中華古籍,凝結著先人的智慧,記載著璀璨的文化,訴説著綿延不絕的中華文明,但隨著歲月流逝,部分古籍正慢慢“老去”,古籍數字化迫在眉睫。由北京大學與抖音合作共建的“識典古籍”平臺自上線至今,已陸續匯集經、史、子、集等2200余部古籍,免費面向公眾開放,為解決古籍保護和利用矛盾進行了有益嘗試。
我國現存古籍約有20萬種,從1949年到2019年,共修復整理出版了近3.8萬種,修復整理現存的全部古籍,可能需要300餘年。可以説,古籍修復速度趕不上老化速度。
修復整理,只是數字化的第一步。古籍具有文物和文獻的雙重屬性,修復好的古籍若只被束之高閣,後續研究就無法開展,更無法發揮其文化傳承的價值。因此,數字化是一場生産效率的變革,也是一次解決古籍保護和利用矛盾的嘗試。
那麼,一本古籍,是如何從紙頁“搬”到網頁的呢?進入“識典古籍”平臺,平臺設計者、北京大學人工智慧研究院副研究員楊浩開始演示:“古籍的數字化分為兩步。一是圖像化,我們與海內外古籍收藏單位合作,廣泛收集古籍數字化圖像資料。二是文本化,利用人工智慧技術對古籍文字進行識別、排序、校對、結構整理、標點、實體識別等,對內容作精細化處理。”
楊浩上傳了一頁古籍圖像,不一會兒,文字自動識別處理完成。古籍圖像上顯現出不同顏色的小方框,“每個方框對應一個文字,先切分再調整順序。紅色方框是提醒此處需要人工介入,來進一步判斷和處理。”
與此同時,古籍圖像旁已自動識別出一段文字,並可比照原圖像進行修改調整。楊浩繼續解釋:“這個過程中,主要使用了文字識別、自動標點和命名實體識別等人工智慧技術。文字識別技術,是對古籍數字圖像中的文字進行單個切分,再進行文字識別和順序讀出;自動標點技術,是通過序列標注的方式對古籍自動進行現代標點;命名實體識別技術,則是通過序列標注方法識別出文本中的人名、地名、書名、時間、官職等資訊。”同時,在機器自動識別後,會有專人復查結果,進一步提升準確率。
據悉,“識典古籍”平臺文字識別的準確率達到96%以上,自動句讀的準確率達到94%,命名實體識別在中古史料上的準確率接近98%。
“大部分古籍閱讀平臺或只提供掃描文稿,或只提供文本內容,有些商業數據庫收費高昂,獲取資源十分不便。”北京大學歷史學系學生劉沐含説,“識典古籍”平臺有著豐富的檢索功能以及分類與年代篩選功能,可以輔助開展學術研究。
據悉,自2022年10月上線以來,“識典古籍”平臺已陸續匯集了包括經、史、子、集等在內的2200余部古籍,免費面向公眾開放。其中就包括由國家圖書館、北京大學和字節跳動公司合作推出的“《永樂大典》高清影像數據庫”。
作為我國古代規模最大的類書,《永樂大典》匯集先秦至明初各類典籍,被譽為“世界有史以來最大的百科全書”。但幾經散佚,副本存世不及原書的4%。如今,借助現代數字技術,厚重典籍濃縮在方寸之間,塵封已久的歷史畫卷徐徐展開,成為觸手可及的文化資源。
集納展示古籍數字版本,不是“識典古籍”平臺的全部。識典古籍”平臺項目負責人、北京大學數字人文研究中心主任王軍希望,“識典古籍”平臺能推動散落海外的中華古籍回流,促成古籍的開放共用。