當古老典籍遇到現代技術,會産生什麼奇妙反應?在“識典古籍”平臺,一本本古籍的前世今生、編纂方法、歷史價值等資訊,伴隨著動畫音效,生動呈現于眼前。據悉,該平臺由北京大學與抖音合作共建,已陸續匯集經、史、子、集等2200余部古籍,致力於為用戶提供免費、公開、穩定、快速、方便的檢索和閱讀古籍服務。
我國現存古籍約有20萬種,從1949年到2019年,共修復整理出版了近3.8萬種,修復整理現存的全部古籍,可能需要300餘年。可以説,古籍修復速度趕不上老化速度,古籍數字化迫在眉睫。
《永樂大典》是我國古代規模最大的類書,匯集先秦至明初各類典籍,被譽為“世界有史以來最大的百科全書”。但幾經散佚,副本存世不及原書的4%。如今,《永樂大典》高清影像數據庫(第一輯)在古籍數字化平臺“識典古籍”正式上線,免費面向公眾開放。據悉,該項目由國家圖書館、北京大學和字節跳動公司合作推出,是“國家古籍數字化工程”優秀項目之一。
“初見”“流光”“驚鴻”“珠聯”“綴玉”……點擊網頁上的標簽,《永樂大典》的前世今生、編纂方法、歷史價值等資訊,伴隨著動畫音效,呈現于眼前。“互動化、可視化的呈現方式更加符合當代人的閱讀習慣,沉浸式閱讀體驗拉近了古籍與普通讀者之間的距離。”“識典古籍”平臺項目負責人之一、北京大學資訊管理系助理教授位通説。
修復整理,只是數字化的第一步。古籍具有文物和文獻的雙重屬性,修復好的古籍若只被束之高閣,後續研究就無法開展,更無法發揮其文化傳承的價值。因此,數字化是一場生産效率的變革,也是一次解決古籍保護和利用矛盾的嘗試。
據平臺設計者、北京大學人工智慧研究院副研究員楊浩介紹,為了實現古籍從紙頁“搬”到網頁這一過程,技術上主要使用了文字識別、自動標點和命名實體識別等人工智慧技術。此外,在機器自動識別後,會有專人復查結果,進一步提升準確率。
據悉,經過這一系列技術+人工的雙重操作後,“識典古籍”平臺文字識別的準確率達到96%以上,自動句讀的準確率達到94%,命名實體識別在中古史料上的準確率接近98%。
集納展示古籍數字版本,不是“識典古籍”平臺的全部。團隊有著更大的設想——在一個平臺實現古籍智慧整理的全部環節。
“‘識典古籍’平臺由兩部分組成,前端是閱讀平臺,後端是古籍整理平臺。”“識典古籍”平臺項目負責人、北京大學數字人文研究中心主任王軍作了一個比喻,“就像是餐廳的前廳和後廚。”
目前,作為“後廚”的古籍整理平臺,已經設定了團隊管理員、書目管理員、審訂員、整理員等各種用戶角色。下一步,將吸引各行各業的古籍愛好者、研究者,以眾包校對、協同審核等形式,推進古籍整理項目和數據庫建設,打造“古籍圖像上傳—文本校對整理—高品質標記—文本輸出”的全流程系統。
“青蒿一握,以水二升漬,絞取汁,盡服之”,屠呦呦從東晉名家葛洪的《肘後備急方》中獲得靈感,由此發現青蒿素;用數十年時間查閱《禮記》《詩經》《左傳》等大量古籍後,竺可楨繪製出一條物候變遷的曲線——“竺可楨曲線”,濃縮出五千年中華大地的冷暖變化圖景。
卷帙浩繁的中華古籍,凝結著先人的智慧,記載著璀璨的文化,訴説著綿延不絕的中華文明。如今,借助現代數字技術,厚重典籍濃縮在方寸之間,塵封已久的歷史畫卷徐徐展開,成為觸手可及的文化資源。
來源:人民日報