招聘資訊 | 版權聲明 | 廣告合作 | 關於我們 | 違法和不良資訊舉報電話:0531-88556595
城市
濟南 青島 淄博 棗莊 東營 煙臺 濰坊 濟寧 泰安 威海 日照 臨沂 德州 聊城 濱州 菏澤
從宣紙到數字化 古籍這樣走出“深閨”
發佈時間:2021-06-10 18:17:30 | 來源:大眾網 | 作者:盧昱 | 責任編輯:高靜

  手寫或印刷在薄薄宣紙上的方塊漢字走出“深閨”,古籍數字化像一把鑰匙……

  打開“用”與“藏”環環相扣的鐵鎖

孔子博物館藏《乾隆禦定石經》初拓本

  40余種珍貴宋元刻本、寫本,著名藏書樓嘉業堂、密韻樓的抄本,文瀾閣《四庫全書》零本……近日,這批珍藏于美國加州大學伯克利分校的中文古籍善本,以數字化方式進駐“漢典重光”古籍平臺(網址為https://wenyuan.aliyun.com/home)。

  古籍中那些手寫或印刷在薄薄宣紙上的方塊漢字,經過數字化,飄起在“雲端”,文化積澱又有了新的保存與光大的途徑。

  錢鐘書的敏銳與遠見

  據統計,目前全國各公藏單位擁有古籍總量超過5000萬冊,需要修復的古籍約1500萬冊。即使在古籍不再繼續遭到破壞的前提下,以當前的修復人才及修復條件計算,要完成全部修復工作仍需數百年。

  古籍文獻集文物價值和學術價值于一身。從保護的角度看,古籍應在合適的環境中收藏,儘量減少在普通環境中的時間,降低使用時可能帶來的損傷。有測試表明,一部宋元古籍,離開專用書庫,置於普通閱覽室中供人翻閱一小時,其壽命就會縮短數月。

  從利用的角度看,古籍若沉睡在庫房,就無法發揮其價值,而且許多學者的研究與古籍內容息息相關。此時,古籍數字化像一把鑰匙,打開了“用”與“藏”環環相扣的鐵鎖。

  事實上,“古籍”與“數字化”已相遇三十餘年。

  古籍數字化,最初紮根在紅學研究領域。在1980年國際紅學會議上,美籍華裔學者陳炳藻提交《從字彙上的統計論紅樓夢的作者問題》,提出用電腦統計《紅樓夢》的字詞,以輔助確定《紅樓夢》尤其是後四十回作者的問題。國外的這些資訊激發了國內部分學者的興趣,他們開始關注並嘗試將電腦技術應用於人文研究。

  受此啟發,鎮江的紅學研究者彭崑崙開始利用電腦程式探討《紅樓夢》人物年齡的問題。1985年他調到鎮江市科委後,又與東南大學(原南京工學院)合作完成《紅樓夢》數據庫。此後,深圳大學建成“紅樓夢多功能檢索系統”。

  1980年前後,錢鐘書的女兒錢瑗到英國訪學,看到英國學者用電腦儲存、查閱莎士比亞的資料。回國後,她把這一資訊告訴錢鐘書。錢鐘書敏銳地意識到這一新鮮事物的價值,讓助手欒貴明從事相關研究。

  在錢鐘書的指導下,欒貴明主持的課題組先後完成“《論語》數據庫”“《全唐詩》速檢系統”等課題,並榮獲1990年“國家科技進步獎”三等獎。這些都是利用電腦進行人文研究的早期實踐。

  當時,古籍數字化還在萌芽狀態。在1987年12月人民日報出版社出版的《論語數據庫》一書卷首,錢鐘書寫道:“從理論上來説,電腦和人類使用過的其他工具沒有什麼性質的不同。它在還未被人廣泛使用的時候,除自身尚待完善以外,總會遭到一些抵拒。慣用舊家什的人依然偏愛著他們熟悉的工具。有了紙墨筆硯‘文房四寶’,準還有人用刀筆和竹簡;有了汽車、飛機、電報電話,也還有不惜體力和時間的保守者。對新事物的抗拒是歷史上常有的現象,抗拒新事物到頭來的失敗也是歷史常給人的教訓。”——當前古籍數字化的潮流,可説是對他遠見的最好褒獎。

  數字古籍為“母本”代言

  上世紀九十年代後期,古籍文獻數據庫的建設步入快車道。

  1996年,書同文公司啟動的文淵閣《四庫全書》電子版是一個標誌性工程,被譽為大型中文電子出版工程的典範。該工程動用300名校錄人員、60名技術、學術和管理人員,歷時三年多完成。

  而今,國家圖書館的“中華古籍資源庫”已線上發佈超過3.3萬部的古籍影像;中華書局的“中華經典古籍庫”已發佈3000多種、15億字的點校本古籍;愛如生公司的“中國基本古籍庫”收書1萬種,既有可供檢索的全文,又提供古籍原版圖像;像家譜、方志、中醫藥等專類古籍在多地興起……

  除了以上大而強的綜合數據庫,在網路上,很多古籍愛好者,出於熱愛和自覺,建立古籍數據庫,如“書格”“殆知閣”等,與以上數據庫多頭掘進,共同成為諸多文史研究者的助手。

  近年來,古籍數字化在服務於學術研究方面,立功頗多。比如中南民族大學王兆鵬主持的“唐宋文學編年係地資訊平臺”、浙江大學徐永明團隊與哈佛大學共建的“學術地圖發佈平臺”、中國社科院劉京臣的“宋代文學地圖數字分析平臺研究”等值得關注的數字人文成果,其平臺的建設離不開數字化古籍的基礎作用。

  而數字化之後,古籍“母本”不再需要冒著各種風險“拋頭露臉”。與此同時,數字化的古籍,可以走出“深閨”,像孫悟空一般實現七十二種變化,在不同時間滿足不同地域讀者的閱讀需求,實現一對多、點對面、虛對實的變化。

  在山東,古籍數字化的步伐也在同步跟進。據山東省圖書館歷史文獻部主任、研究館員杜雲虹介紹,省圖在2013年發佈“山東省圖書館古籍珍本數據庫”,收入數字化古籍資源近1000種,共計10萬餘拍,內容涵蓋從明代至民國不同時期、不同類型的經史子集四部類古籍資源;2018年,省圖將數字化的館藏《永樂南藏》1600余部佛經、204592拍、587764頁,在網路上公開發佈;目前,省圖已完成“易學古籍數據庫”建設,實現6164種易學古籍書目線上檢索和其中900種易學古籍的數字化……

  “現在,古籍普查工作還沒有最終完成。我們要摸清家底,古籍數字化不是一朝一夕的事兒,要在保護好古籍的前提下,做好規劃,清楚哪些工作是最迫切的,不能零打碎敲地做,更不能盲目開發利用。”杜雲虹説。

  對於如何用好“在雲端”的古籍寶庫,杜雲虹分析道:“怎麼讓古籍裏的文字活起來,讓大家覺得不很遙遠,有很多工作要做。央視的節目《典籍裏的中國》,講述典籍傳承文明的故事,是很好的嘗試。”

  當阿裏涉足古籍

  “電商巨頭阿裏涉足古籍行業。這在電商行業意味著什麼我不清楚,但在古籍領域確實算得上一個大新聞。”網友“人生五味”評價道。

  阿里巴巴達摩院院長張建鋒表示,達摩院自2017年起接觸古籍數字化領域,2019年正式參與由阿里巴巴公益基金會、四川大學、美國加州大學伯克利分校、中國國家圖書館、浙江圖書館合作開展的“漢典重光”項目,旨在尋覓流散海外的中國古籍並將其數字化、公共化,讓普通人也能親近古籍,通過古籍與先賢對話、與優秀傳統文化對話。

  目前,首批20萬頁古籍已完成數字化,並沉澱為覆蓋3萬多字的古籍字典,公眾可通過“漢典重光”平臺翻閱、檢索古籍。記者打開平臺網頁,試著搜索“山東”“濟南”等關鍵詞,跳出《戰國策》《通鑒綱目》《河防一覽》等結果,皆可定點查詢、鎖定。相較于其他成熟的數據庫,“漢典重光”後臺的數據量還偏小,在使用時也有一些不夠流暢之處。

  新潮的阿裏似乎對陳舊的古籍還不太熟悉,但這種“相逢”正探尋著古籍數字化的新路徑。

  據悉,古籍數字化大概有以下流程:採集側,將紙質書變為電子掃描版;生産側,將電子掃描版變為文字版;應用側,將文字版變為古籍研學系統,涵蓋檢索、字典、知識圖譜等功能。

  目前,古籍數字化在採集側、生産側有兩種方法。第一種是純人工錄入,如一本書有10萬字,人工把10萬字輸入電腦。像《四庫全書》的編修,就是紙書時代的“人工錄入”,當年在乾隆皇帝的主持下,紀昀等360多位高官、學者參與叢書編修,一共用了3800多人、耗時13年才完成。《四庫全書》包含3462種書、7.9萬餘卷、3.6萬餘冊,總字數約10億。在當下,已很難找到並組織眾多精通古文字的專家,如此專注、數十年如一日地來做錄入工作。

  第二種是電腦與人工結合,電腦利用文字識別技術提取一部分文字,電腦無法識別的文字則由人類專家手動錄入,最終再由人工進行檢校。這一技術路線雖探索多年,但始終沒能讓識別效率大幅提升。原因主要在於:電腦能識得的古籍文字極為有限,若用傳統的機器學習方法“教會”電腦海量的古籍文字,得先提供海量的標注數據,用於訓練識別模型。而古籍文字沒有現成的標注數據,需要懂古文的專業人士手動標注,可能比人工直接錄入的工作量更大、成本更高。

  面對海量無標注的數據,如何讓AI(人工智慧)快速批量識別古籍,始終是古籍數字化領域的技術瓶頸。對此,阿里巴巴達摩院技術團隊與四川大學專家聯手,在第二種技術方法的基礎上,研發了一套全新的識別系統。

  首先是全書檢測,把古籍正文中的每個字都摳出來,作為單獨的一張圖;然後進行聚類,一本古籍總字數可能有10萬字,但其中有很多字是重復的,比如“之”“乎”“者”“也”等,聚類就是讓機器自動把字形筆畫一致的字歸為一類,接著再由專家進行標注。原本全部要人工標注10萬字的書,經過聚類,只需要對二三千字類進行標注即可,一類字只需標注一次。

  聚類和人工標注,不僅完成了每一類文字的認字過程,還收穫了更多新的訓練樣本,可以繼續喂給機器學習。古籍裏有很多生僻字、異體字、異形字,出現概率極低,幾乎找不到樣本。對此,達摩院團隊使用字體遷移方法,讓機器自動為每個字合成幾個新樣本,確保單字樣本量達到10個,用來訓練少樣本識別模型。

  從聚類到少樣本模型識別,走完一輪,全書70%左右的文字可以被打上正確的標簽,餘下的部分將從頭再來一遍,進行第二輪迭代,又能解決餘下文字中的70%。經過兩輪迭代,一本書91%的文字可以被識別。如此,通過不斷的學習,訓練數據越來越多,機器的認字能力也越來越強。

  在複雜的演算法養成過程中,人工標注的工作量被大大降低。“經過反覆的學習和提升,目前達摩院系統對伯克利20萬頁古籍的整體識別準確率達到了97.5%。這套人機交互的識別方案,錄入效率比純人工輸入提升了近30倍。”張建鋒説。

  張建鋒表示,守護中華傳世典籍,是科技工作者和文化工作者共同的使命。阿裏計劃將這套技術工具連同古籍數字化平臺一併捐贈,交由權威公共機構長期運營;同時,阿裏仍將在古籍數字化工作上持續投入人力、物力。(大眾日報記者 盧昱)

 

熱點新聞
滾動
濱州:百萬尾魚苗放歸大海湖泊
濟南大北環高速公路建設啟動 強省會迎來三環時代
菏澤打造兩條“金絲帶” 擦亮“黃河入魯”品牌
濟寧:“十四五”聚力推進“八個強市”建設
聊城試點運作電動車新型智慧無線充電樁
日照:杜鵑花驚艷綻放,遍地芬芳
煙臺市首個居民區充電示範點建成投運
青島114個項目入選“省重點” 項目覆蓋13條産業鏈
淄博全力打造三大平臺 助力“中國膜谷”建設
濟南吹響現代化強省會建設衝鋒號
青島防疫物資企業加速“出圈”
總投資1258億元!淄博市春季重大項目集中開工“拔頭籌”
+更多
山東榮成:海上“夏收”忙
山東榮成:海上“夏收”忙
麥浪滾滾滿目金黃 曲阜市息陬鎮天氣晴好麥收忙
麥浪滾滾滿目金黃 曲阜市息陬鎮天氣晴好麥收忙
濱州市花月季五月盛放 扮靚城區邀君共賞
濱州市花月季五月盛放 扮靚城區邀君共賞
碧草茵茵“鳳凰湖”
碧草茵茵“鳳凰湖”
濰坊市奎文開發區開通6條公交線路
濰坊市奎文開發區開通6條公交線路
臨沂這條“紅色專線”入選全國“十大最美農村路”
臨沂這條“紅色專線”入選全國“十大最美農村路”