中國網首頁

首頁  >   向young雲  >

​教育部:加快建設國家關鍵領域語料庫和國家語言資源資訊庫

2025-04-01 09:05

來源:中國網

分享到:
連結已複製
字體:

中國網4月1日訊(記者 劉佳)日前,教育部、國家語委、中央網信辦共同印發《關於加強數字中文建設 推進語言文字資訊化發展的意見》(以下簡稱《意見》),對加快推進以資訊化促進語言文字事業高品質發展,以數字化賦能語言文字更好服務現代化建設等,作出了全面部署。

3月31日,教育部舉行新聞發佈會,就《意見》進行全面解讀。會上,相關負責人表示,今年將加快建設國家語言文字大數據中心、國家關鍵語料庫和國家語言資源資訊庫,服務大語言模型以及生成式人工智慧等技術前沿創新應用的制高點。

《意見》提出,到2027年,進入以數字中文建設為重點的強基示範階段,形成語言文字資訊化推進機制,推動語言文字資訊化規範標準、前沿語言技術、優質語言資源、新型語言服務等基礎支撐能力顯著增強;2035年,進入全面推進語言文字資訊化發展的深化賦能階段,推動承載中華文化的中文在全球數字空間、網路空間以及生成式人工智慧等關鍵場景中的使用佔比和價值引領作用顯著提高,實現中國語言文字資訊化整體水準位居世界前列。

教育部語言文字資訊管理司司長劉培俊介紹,今年將啟動實施國家關鍵領域語料庫建設計劃。該語料庫將在關鍵學科、重點行業、戰略區域、民生期待和社會急需領域,分批建設規範、安全、優質的國家關鍵語料庫。目前,教育部、國家語委已經支援建設了30余項關鍵領域的語料庫。

語料庫將以建設語料基礎設施為新基建,服務大語言模型以及生成式人工智慧等技術前沿創新應用的制高點。目前,教育部、國家語委已經支援佈局了五個領域的自主安全可控大語言模型建設項目,下一步,將根據需求穩步擴大建設範圍,提升建設成效。

建設語料庫,要逐步建立健全語料共建共用新機制;研製語言資源、語言數據、基礎語料以及大語言模型的技術和管理標準;依託高校研究機構推進多學科交叉融合,為語言科技、語料建設以及人工智慧創新應用培養高素質人才。

“當前以深度求索(DeepSeek)等為代表的人工智慧技術創新不斷取得突破性進展,在語言的教育教學和研究領域,有多個語料庫。但是很多語料庫還處於單一文本模式和領域應用階段,在建設的理念、技術和方法、規模,以及數據多樣性、時效性尤其是與人工智慧相結合的大規模應用方面還存在不足。”教育部語言文字應用管理司副司長王暉表示,新型語料庫將立足人工智慧時代大背景,突破傳統語料庫單一文本模式和領域應用壁壘,以大模型訓練及性能評測、智慧計算為核心,以新質態、多模態、多語言、大規模、全域性為突出特性,為通用領域和細分領域多場景應用及創新發展提供規範、可信、高品質的語言文化語料資源。

2025年,教育部語言文字應用管理司已啟動新型國家語料庫的建設工作,開發建設“中華文脈新型語料庫”“中華大閱讀體系語料庫”,以這兩個示範庫建設整體打造出標桿。在此基礎上,探索建設系列教育、語言文化國家新型語料庫群,服務教育強國、文化強國建設。

編審:張艷玲 王月博