收集字符,“文理”結合
為滿足文字及其他書面符號在電腦上的表示、傳輸、存儲等種種要求,需要對文字和符號予以編碼,並用符號的位序將它們組織為一個字符集。這一編碼字符集,俗稱“字庫”。簡單地説,“中華字庫”就是一個收納了中國古今的漢字及少數民族文字形體的龐大編碼字符集。對於這項國家重大工程,《國家“十一五”時期文化發展規劃綱要》作了如下表述:“中華字庫”工程是要“建立全部漢字及少數民族文字的編碼和主要字體字符庫。重點研發漢字的編碼體系、輸入、輸出、存儲、傳輸以及相容等關鍵技術。”
這一簡潔表述的背後,其實包含了很多複雜的內容。張力偉説,這項工程不是只簡單地收集文字進行編碼整理。一方面,我們要從數千年流傳下來的文字載體中,盡可能全面地蒐集匯聚古今各種文字形體,在所出現過的實際文本原形圖像的基礎上,確定歷史演變,整理字際關係等等,對學術品質的要求很高。為此,工程聘請中國文字學會第一任會長,在文字學界極具威信的裘錫圭教授擔任首席專家,會同文字學界的許多專家參與研發;另一方面,這麼龐大的整理工作,若像傳統的那樣人工蒐集、抄錄,將不可避免地存在人為錯誤多、記錄資訊量少等問題。“中華字庫”工程將以現代資訊技術作支撐,通過有效的人機結合,讓電腦巨大的存儲能力和便捷的檢索類聚能力為文字專家的專業研究服務,利用機器來放大和倍增專家的工作效力。工程決定由中國科學院軟體研究所等軟體研究的精銳部隊來承擔工程的技術研發,為工程的開展提供技術支撐。
由此看來,“中華字庫”不僅關乎學術,還關乎技術,“文理”結合十分緊密。這項工程是在對文字學深入研究的基礎上,研究各種文字收集、篩選、整理、對比和認同的方法與原則;充分利用先進的數字化技術,開發相應的軟體工具,在統一的數字化平臺上,建立人—機結合的文字收集、整理、篩選、比對和認同的操作與管理流程。中華字庫工程不僅會全面收集整理全部漢字、建立漢字的主要字體字符庫,還會盡可能全面地收集整理少數民族文字併為其建立主要字體字符庫;不僅要提交古今漢字及少數民族文字的國家編碼、國際編碼標準提案,還要為中華字庫在不同領域的應用提供支撐工具與環境、實現中華字庫在網際網路的線上發佈,並且建成面向用戶的動態補字系統。在數字化服務方面,可謂是一應俱全。
已有整理,難應所需
也許你會説:全面整理文字,有必要麼?咱們不是有《漢語大字典》了麼?其實不然。據了解,1985年開始分卷定稿的《漢語大字典》共收列楷書漢字6萬左右,已可以算是中國漢字的一次全面梳理,亦是當時條件下最優秀的漢字科研成果。然而,對於我國浩瀚的文獻檔案中的實際用字,對於不同時代不同地域社會生活中的實際用字,當時還不具備全面調查的手段和條件;而且該書以楷書文字為主,至於甲骨文、金文、小篆和隸書等古文字形體,並未全面整理,只在楷書單字條目下收錄了有代表性的一部分,用以反映形體演變關係。除了漢字,我國還有許多少數民族文字,包括不少海外收藏的少數民族古文獻文字,沒有被整理出來。研發成功後的中華字庫,不僅將包括針對社會應用的實用楷書字表,也將形成楷書總字表,還將有一個包含古文字的整體的漢字字表,到了最後階段,少數民族文字也將被整合進來,最終形成一個完整有序的,有著內在聯繫的大型“中華字庫”文字資源庫。
與之前已有的文字整理工作相比,“中華字庫”的優勢還在於,其文字整理將面向出版及網路數字化需求。也許有人會問,咱們的電腦不是已經能方便地輸入漢字了麼?是,可能你覺得夠用了,可是像派出所負責戶籍管理的警察或者街道辦事處負責人口普查的同志等肯定會給出不一樣的回答。目前,我國的數字化建設正遭遇瓶頸。小到自然資源、地名、人口等清理普查,大至國家的經濟、地理空間等戰略性、基礎性的資訊庫建設,還有公安、民政、金融、保險、海關、民航等行業的資訊服務與監管存在很大的用字缺口。我國文字種類繁多且字量龐大,特別是漢字,內部關係又異常複雜,現有的電腦字庫,無論是國家標準還是國際標準,都存在收字不全、字際關係不清等問題。少數民族文字缺口更大,除幾種主要少數民族的文字外,許多甚至還沒有編碼。這些問題都嚴重影響了國家數字化建設的方方面面,也在直接或間接地影響著人們的生活。建設“中華字庫”工程,就是要徹底解決這一瓶頸問題,全面推動我國的數字化建設。
|