網站無障礙
站內搜索

從甲骨文到智慧雲 以數智之筆繪中文發展新卷

發佈時間:2025-04-09 09:00:45 | 來源:人民日報海外版 | 作者:孫亞慧 | 責任編輯:秦金月

近日,教育部、國家語委、中央網信辦共同印發《關於加強數字中文建設推進語言文字資訊化發展的意見》(簡稱《意見》),對加快推進以資訊化促進語言文字事業高品質發展,以數字化賦能語言文字更好服務現代化建設等作出了全面部署。

當敦煌藏經洞的千年文書在數字世界中甦醒,甲骨文的刻痕以數據躍動永駐雲端……數字中文,正以代碼為筆、演算法為墨,在虛實交織中聯結過去與未來。

數智賦能語言文字高品質發展

語言文字“日學而不察、日用而不覺”,廣泛存在於社會生産各個方面。

如今,中國已建成世界最大的規模語言資源庫和中國語言資源知識圖譜,整合120多種語言和方言資源。今年,全國語言文字使用情況調查將首次實施,打造集數據採集、傳輸、存儲、加工一體的整合化調查平臺,為深化教育綜合改革和綜合國力分析提供大數據支撐。

為加快推進語言文字資訊化,《意見》提出,將數字中文建設作為服務數字中國建設的重要任務和全面推進語言文字資訊化發展的突出重點,著力推進中文數字化與數據中文化,完善新型中文服務體系構建與語言文字治理體系。

教育部語言文字資訊管理司司長劉培俊介紹,中國已發佈100多項國家通用語言文字和民族語言文字資訊化規範標準,為自然語言處理技術在人工智慧、數字産品和資訊産業領域的應用創新奠定規範基礎。

語言文字智慧化學習的廣泛開展,有力服務了教育改革創新。比如,高水準開展普通話水準測試,全面實現從人工到智慧的普通話測試方式轉變,制發電子證書9000多萬份。在廣東,已建成全國首個普通話水準測試智慧考場,考場首創“隨到隨考”測試模式,大幅提升了普通話測試效率。

語言文明智慧化傳播聯通世界,也有力服務了國際交流互鑒。通過數字賦能,書寫在古籍裏的文字實現“活化”,建成中華思想文化術語數據庫,面向國際傳播1200多條反映中華民族話語體系中最核心最本質的思想文化術語,並與40多個國家和地區開展多語種數字版權合作。

“中國已建成整合化、智慧化、國際化的全球中文學習平臺,用戶超1600萬人,覆蓋190多個國家和地區,深度合作建立聯盟,中文學習聯盟雲服務平臺提供3萬門線上課程,與中外1600多家機構合作,推動實現中文人人、時時、處處可學可用、易學易用。”劉培俊説。

建設新型國家語料庫

今年,教育部啟動佈局了新型國家語料庫的建設工作。《意見》明確,到2027年,初步建成國家關鍵語料庫和國家戰略語言資源資訊庫。

新型國家語料庫為什麼如此重要?又將在語言文字資訊化工作中發揮何種作用?

“當前以深度求索(DeepSeek)等為代表的人工智慧技術創新不斷取得突破性進展,在這個大背景下,國家提出這樣一個戰略部署,建設新型國家語料庫,凸顯了其重要性、必要性和緊要性。”教育部語言文字應用管理司副司長王暉如是説。

現階段,語言教育教學和研究領域存在多個語料庫,但很多語料庫還處於單一文本模式和領域應用階段。這些語料庫在建設的理念、技術和方法、規模,以及數據多樣性、時效性尤其是與人工智慧相結合的大規模應用方面尚存在不足,難以滿足多元化、動態化尤其是智慧化的語言數據需求。

找準這一難點,王暉介紹,建設新型國家語料庫立足人工智慧時代大背景,突破傳統語料庫單一文本模式和領域應用壁壘,以大模型訓練及性能評測、智慧計算為核心,以新質態、多模態、多語言、大規模、全域性為突出特性,為通用領域和細分領域多場景應用及創新發展提供規範、可信、高品質的語言文化語料資源。

“主要包括兩方面:一是規範引領,主要是加強制度的供給,研製語料庫建設規範,突出價值導向、應用導向、創新導向,統籌品質和安全,為語料庫建設提供基礎原則和方法指引。二是示範引導,成熟先上,開發建設‘中華文脈新型語料庫’‘中華大閱讀體系語料庫’,以這兩個示範庫建設整體打造出標桿,‘中華文脈新型語料庫’也可以簡單理解瞄準的是智慧教師,‘中華大閱讀體系語料庫’瞄準的是智慧學伴。”王暉説。

數字中文推動産業升級

20世紀80年代,北京大學王選團隊發明鐳射排版技術,並結合漢字編碼標準,突破了中文數字化的空間限制,讓承載中華文化的中文在全球網際網路空間獲得新生。那是一場從“鉛與火”到“光與電”的變革,而如今,大語言模型技術對大規模高品質語料提出前所未有的需求,賦予了數據中文化新的歷史內涵和使命任務。

歷史階段不同,但機遇和挑戰相似。

北京大學王選電腦研究所所長湯幟認為,當前,中文資訊處理技術的發展從以往解決漢字輸入輸出的基礎性問題,進階到當先釋放語言文字數據要素價值的全方位突破。

《意見》提出,實施數字中文推動産業升級行動。支援語言文字資訊技術新産品、新職業和新業態發展,鼓勵傳統語言産業數字化轉型升級,培育基於數字中文的新型語言産業。推動語言資源、語言翻譯、智慧機器人、中文內容服務等軟硬體産品研發應用,支援圍繞語音、語料、語言應用生態形成産業聚集,鼓勵創建語言産業應用示範品牌。

“新形勢下,語言文字將從實現‘靜態符號’向‘動態數字資産’,從‘資訊載體’向‘生産要素’的轉型,要重點推動語料庫、數據標注與評價等標準的研製,支援文本生成與理解、語言翻譯、情感分析等各種任務。”湯幟表示,人工智慧發展迅速,語言文字資訊處理技術創新應用正經歷從“GB2312字符集”到“萬億參數大語言模型”的範式變革,語言文字未來將實現與資訊技術的深度融合,形成“技術突破—場景落地—生態繁榮”的良性迴圈。(記者 孫亞慧)

最新播報查看更多
載入更多新聞
友情連結

關於我們  合作推廣  聯繫電話:18901119810   010-88824959   詹先生   電子郵箱:zht@china.org.cn

版權所有 中國網際網路新聞中心 京ICP證 040089號-1  網際網路新聞資訊服務許可證   10120170004號 網路傳播視聽節目許可證號:0105123