數字化為古籍研究帶來怎樣的“蝶變”

發佈時間：2022-04-15 11:00:03 | 來源：光明日報 | 作者：韓寒 | 責任編輯：謝榮宇

循著新近出臺的《關於推進新時代古籍工作的意見》所提出的“推進古籍數字化”“積極開展古籍文本結構化、知識體系化、利用智慧化的研究和實踐”等要求，記者採訪了國內從事古籍智慧化研究的學者，探一探數字化能給古籍保護與研究帶來怎樣的“蝶變”。

沉寂的典籍，動起來了

一幅橫向流動的《千里江山圖》上，標注了“涑水”“濂溪”“玉山”等若干個古地名。數百個衣袂飄飄的儒生，正在圖上緩緩挪動，像是在“趕路”。他們從一個地方挪到另一個地方的行程，代表著他們的求學歷程和所屬學派。

這是北京大學人工智慧專業學生馬源和她的同學們向首屆“北京大學數字人文作品展”所提交的展品——用JavaScript完成的H5習作，取名為“宋元學案傳承可視化系統”。

“像《宋元學案》這樣的大部頭古籍，離我們的時代太遙遠了。如果不是做專業研究的學者，可能根本想不起來要翻閱它。我們想通過這種像遊戲界面一樣的形態，吸引年輕人了解古籍。”馬源説。

展覽現場，同樣能帶來“躍動”感的，是北京大學中國古代史研究中心副主任史睿指導桑宇辰等同學製作的“朱子年譜可視化系統”，它利用GIS（地理資訊系統）技術，對《朱熹年譜長編》進行了時空的可視化呈現，讀者能自主點擊、了解朱熹求學、遊歷、交友的生平。

數字技術甚至賦予古籍研究人文學科的能力，遠不止讓它們像遊戲一樣動起來。

“數字人文代表著智慧資訊環境下，人文社會科學研究範式的轉型，從傳統的文本驅動向數據驅動轉型。人文研究的材料，如文獻、圖錄、器物等，都可轉化成某種形態的數據，從而使得大數據和人工智慧技術也能處理它們。視覺化只是數字人文帶來的附帶效應，讓人易於理解學術成果。而其深層邏輯，是研究範式的變化。”北京大學數字人文研究中心主任王軍教授告訴記者。

展覽現場有他指導的博士生王林旭對《宋元學案》《明儒學案》《清儒學案》所做的數據挖掘成果展示——

“學術關係網路圖”，用正則運算式對《宋元學案》和《清儒學案》進行人物關係統計，共有“弟子”“家學”“私淑”“同調”“學侶”“講友”“交遊”“從遊”“其他”9種類型，出現頻次一目了然。

“通過知識圖譜的重構，古籍不再是一座座文字的大山，古文裏的內在結構和語義關係能在短時間內被清晰的抽繹和展示出來。”王軍説。

除了中國古籍能“數”讀，國外的古籍能“數”讀嗎？

答案是肯定的。

在北京大學外國語學院西葡意語系教師成沫對義大利詩人但丁進行的數字化研究項目中，《神曲》中重復頻率最高的三行詩韻律結構valle（山谷）、spalle（肩膀）、calle（小道）被精準地提煉了出來。

不僅是“讀取”，還要能“演繹”

過去的典籍研究，主要靠大師。

大師在大量閱讀文獻的基礎上，靠一己的記憶與思辨能力，産出具有思想性的研究成果，再訴諸筆端，以文字的形態傳遞給大眾。

機器智慧輔助下的典籍研究，則是以數據為基礎的。在機器智慧的介入下，學者能獲得瞬間處理海量資料的能力，王軍分析。

清華大學中文系教授劉石和首都師範大學中國詩歌研究中心專職研究員尹小林發表的一篇文章，對先秦到清代的百部經典古籍做了大數據分析，發現頗豐。如果依賴於人工統計，這樣的成果是難以在短時期內産生的。數字帶給經典典籍研究的變化之一，是效率的提升。

“在詩歌研究領域，前輩學者主要通過例證，來進行分析和總結中國古典詩詞的聲律。後來出現了手工標注統計和基於大量詩詞的定量分析統計。然而這些研究結論都來源於人工統計，單項研究的耗時長。”北京大學中文系教授杜曉勤回顧道。

有沒有一個軟體，能“一鍵”就準確標注所有中國古典詩詞的聲律格式和合律程度呢？

從2004年起，杜曉勤等開始建設中國古代音韻數據庫和中國古代詩歌文本數據庫，共錄入1萬多個漢字的音韻和900多萬字的詩歌。在此基礎上，他們研發了“中國古典詩歌聲律分析系統”。這個系統，能快速、大批量標記與統計分析中國古典詩歌的聲律。

利用這個系統，杜曉勤撰寫了《齊梁詩歌向盛唐詩歌的嬗變》《六朝聲律與唐詩體格》等多部專著，刊發了多篇論文。

在古籍數字化領域耕耘多年，王軍想做的不僅僅是對古籍進行單向度的知識抽取和資訊整合。

他指導唐雪梅、嚴承希等博士生研發的古籍自動整理系統，通過對演算法的深度學習和大規模語料訓練，能對古籍的句讀和人名、地名、職官、書名、時間五類實體進行自動標記。其中句讀平均準確率達94%，命名實體識別在史料上的準確率達98%。

“智慧技術支援下的古典文獻研究，是未來古籍研究的重要方向之一。”王軍説。

人文學科新氣象的“薪火”，從這裡誕生

“昨夜星辰昨夜風，韆鞦靈會此宵同。一枝月桂和煙秀，人在瓊樓玉宇中。”在一次公開演講中，清華大學電腦科學與技術係教授孫茂松向聽眾展示了一首詩。

“你們能看出，這是一首從4篇古詩裏摘錄句子組成的集句詩嗎？關鍵是，能看出這是機器人創作的嗎？”孫茂松問。

通過演算法和深度學習，人工智慧已經能媲美人類進行攝影、畫畫、作曲、寫詩。

創造性，這一人類所獨有的領域，正逐步被機器介入，由此也産生了一些倫理問題——例如，機器通過習得而非人類在感情充沛時産生的創造物，能被稱為“藝術”嗎？

同樣的問題，也易産生在人工智慧賦能後的人文學術研究領域。

機器介入各類古籍研究後産生的結果，如各類統計數據、可視化“圖譜”或者“頁面”，能被認定為具有思想性的人文研究成果嗎？如果能，怎樣量化它們的學術價值？

“這些應該也算作成果的一種形式。在各個學界，對數據集的重視都在日益增強，以古籍研究為基礎的史學、文學等人文學科不應輕視，而且要更加重視。而可視化本身，一方面可以幫助學者獲得更多洞見，另一方面也能更好地向大眾進行傳播。有一些方式，是傳統手段難以達到的，是人文學科新氣象的‘薪火’，需要保護好。”北京大學智慧學院教授袁曉如這樣回答記者的疑問。

“無論是可視化成果本身，還是成果産生的傳播效應，都是可以計量的。當然，雖然數據驅動將智慧技術引入了人文學科，但是數據的使用和意義的闡釋，還是需要人文學者的介入和指導。”王軍説。

新近出臺的《關於推進新時代古籍工作的意見》要求，“加強古籍數據流通和協同管理，實現古籍數字化資源匯聚共用”“支援古籍數字化重點單位做強做優，加強古籍數字化資源管理和開放共用”。

這背後，有著怎樣的原因？

“因為古籍智慧化及以其為基礎的人文學術研究需要大量的資金投入。計算工具平臺、數據資源、技術服務團隊等，都需要投入。然而，每個研究機構的資金實力是不一致的。傳統依靠一兩位學者皓首窮經就能産生大量成果的研究方法，在數字化時代可能不適用了。為了彌補資金投入差別造成的學術鴻溝，就有必要加強共用。”王軍談道。

“北京大學可以肩負起建設國家基礎設施的任務，同時也將這些設施對外分享，幫助偏遠地區或者學術資源不足的地方開展研究。”袁曉如説。

古籍數字化保護與利用的新樂章，已經奏響了。