第六屆國家中西醫結合醫學中心毛髮專病醫聯體建設管理論壇暨頭皮健康管理培訓班在京召開 | 數字經濟如何賦能我國現代化産業體系建設? | 出海歐洲正當時 華為雲提供“五星護航”助中國品牌行穩致遠 | 著力造就拔尖創新人才,華中科技大學順利開展“國際化拔尖創新人才培養計劃” | 誠邁科技榮獲“榮耀金牌供應商獎” | 既要保護也要利用,“識典古籍”平臺讓更多古籍發揮傳承價值 | 新冠疫情或在本月回升,寒假春節需警惕新冠反覆、交叉感染 | 資訊|RingConn智慧戒指將亮相全球最大科技盛會CES 2024 | 《繁花》的金宇澄,也愛刷短視頻 | Mobvista匯量科技獲評金口獎年度産業促進獎、金茶獎年度最佳出海服務企業 |
 
當前位置: 新聞>滾動>

既要保護也要利用,“識典古籍”平臺讓更多古籍發揮傳承價值

發佈時間:2024-01-16 10:22:45  |  來源:人民日報  |  作者:袁夢  |  責任編輯:科學頻道

卷帙浩繁的中華古籍,凝結著先人的智慧,記載著璀璨的文化,訴説著綿延不絕的中華文明,但隨著歲月流逝,部分古籍正慢慢“老去”,古籍數字化迫在眉睫。由北京大學與抖音合作共建的“識典古籍”平臺自上線至今,已陸續匯集經、史、子、集等2200余部古籍,免費面向公眾開放,為解決古籍保護和利用矛盾進行了有益嘗試。

我國現存古籍約有20萬種,從1949年到2019年,共修復整理出版了近3.8萬種,修復整理現存的全部古籍,可能需要300餘年。可以説,古籍修復速度趕不上老化速度。

修復整理,只是數字化的第一步。古籍具有文物和文獻的雙重屬性,修復好的古籍若只被束之高閣,後續研究就無法開展,更無法發揮其文化傳承的價值。因此,數字化是一場生産效率的變革,也是一次解決古籍保護和利用矛盾的嘗試。

那麼,一本古籍,是如何從紙頁“搬”到網頁的呢?進入“識典古籍”平臺,平臺設計者、北京大學人工智慧研究院副研究員楊浩開始演示:“古籍的數字化分為兩步。一是圖像化,我們與海內外古籍收藏單位合作,廣泛收集古籍數字化圖像資料。二是文本化,利用人工智慧技術對古籍文字進行識別、排序、校對、結構整理、標點、實體識別等,對內容作精細化處理。”

fe765b0abec714564ee0fc9d3312cd2d_2401160932591463185551.jpeg

楊浩上傳了一頁古籍圖像,不一會兒,文字自動識別處理完成。古籍圖像上顯現出不同顏色的小方框,“每個方框對應一個文字,先切分再調整順序。紅色方框是提醒此處需要人工介入,來進一步判斷和處理。”

與此同時,古籍圖像旁已自動識別出一段文字,並可比照原圖像進行修改調整。楊浩繼續解釋:“這個過程中,主要使用了文字識別、自動標點和命名實體識別等人工智慧技術。文字識別技術,是對古籍數字圖像中的文字進行單個切分,再進行文字識別和順序讀出;自動標點技術,是通過序列標注的方式對古籍自動進行現代標點;命名實體識別技術,則是通過序列標注方法識別出文本中的人名、地名、書名、時間、官職等資訊。”同時,在機器自動識別後,會有專人復查結果,進一步提升準確率。

1f0b1020e8aaa1fc34af388691a43532_2401160933001390692175.jpeg

據悉,“識典古籍”平臺文字識別的準確率達到96%以上,自動句讀的準確率達到94%,命名實體識別在中古史料上的準確率接近98%。

“大部分古籍閱讀平臺或只提供掃描文稿,或只提供文本內容,有些商業數據庫收費高昂,獲取資源十分不便。”北京大學歷史學系學生劉沐含説,“識典古籍”平臺有著豐富的檢索功能以及分類與年代篩選功能,可以輔助開展學術研究。

據悉,自2022年10月上線以來,“識典古籍”平臺已陸續匯集了包括經、史、子、集等在內的2200余部古籍,免費面向公眾開放。其中就包括由國家圖書館、北京大學和字節跳動公司合作推出的“《永樂大典》高清影像數據庫”。

作為我國古代規模最大的類書,《永樂大典》匯集先秦至明初各類典籍,被譽為“世界有史以來最大的百科全書”。但幾經散佚,副本存世不及原書的4%。如今,借助現代數字技術,厚重典籍濃縮在方寸之間,塵封已久的歷史畫卷徐徐展開,成為觸手可及的文化資源。

集納展示古籍數字版本,不是“識典古籍”平臺的全部。識典古籍”平臺項目負責人、北京大學數字人文研究中心主任王軍希望,“識典古籍”平臺能推動散落海外的中華古籍回流,促成古籍的開放共用。