2027年要初步建立的“國家關鍵語料庫”是什麼 怎麼建
“當前,隨著新一輪科技革命和産業變革,大語言模型、人工智慧技術快速發展,語料庫的建設規模與應用範圍也經歷了大幅度完善和拓展。”前不久,教育部語言文字資訊管理司相關負責人提到,決定實施國家關鍵語料庫共建共用計劃,擴展關鍵領域,支援共建共用,推進應用轉化,為全方位釋放語言文字在經濟社會發展中的數據要素價值奠定更加寬厚基礎。
近期,教育部、國家語委、中央網信辦印發《關於加強數字中文建設推進語言文字資訊化發展的意見》(以下簡稱《意見》)。其中提到,到2027年,國家數字中文建設行動取得重要成效,語言文字數據要素價值有效釋放。基本形成“政府主導、部門協同、社會參與、共建共用”的語言文字資訊化工作機制;基本建成國家語言文字大數據中心,初步建成國家關鍵語料庫和國家戰略語言資源資訊庫;語言文字資訊化標準、前沿語言技術、優質語言資源、新型語言服務等基礎支撐能力顯著增強。
“國家關鍵語料庫”是什麼
《意見》提出,推動基礎性語言資源建設,實施國家關鍵語料庫共建共用計劃,重點支援建設大規模中文語料庫及高品質民族語言文字語料庫、手語盲文語料庫、行業領域語料庫、語言監測動態語料庫等。
教育部語言文字資訊管理司相關負責人在接受中青報·中青網記者專訪時提到,語料庫是自然語言處理、大語言模型、人工智慧技術創新應用的重要支撐,是經濟社會資訊化建設、數字化賦能和智慧化發展的基礎要素,促進語言數據賦能資訊技術創新與資訊技術賦能語言文字資源使用的雙向賦能。
以文化傳承領域為例,目前已經建設了中華思想文化術語庫、中華精品字庫、甲骨文數據庫、中國語言資源保護數據庫等。
其中,中華思想文化術語庫包括了中華民族所創造或構建,凝聚、濃縮了中華哲學思想、人文精神、思維方式、價值觀念,以詞或短語形式固化的概念和核心詞。該語料庫中包括1200余條思想文化術語、中醫文化關鍵詞、典籍譯本、典籍譯名、博雅雙語詞等。
教育部語言文字資訊管理司相關負責人提到,2024年,智慧化學習工具“AI小語”正式上線。“AI小語”是以中華思想文化術語庫為基礎訓練語料、以大語言模型技術為核心技術的高交互感智慧平臺,對賦能中華優秀傳統文化對內傳承和對外傳播具有重要意義。
截至目前,教育部、國家語委通過組織開發、整合匯聚、動態更新等方式,組織高校、企業、科研院所等,建設大規模高品質語料庫30余項,相關語料庫已廣泛應用於經濟社會發展的關鍵領域。
“國家關鍵語料庫”怎麼建
“資訊技術深刻融入經濟社會發展各領域,需要推動語言文字與資訊技術的深度融合,找準兩者的結合點、融合點、發力點。”教育部語言文字資訊管理司相關負責人説。
長期以來,國家語委會同有關部門研製併發布了《資訊技術中文編碼字符集》等國家通用語言文字和民族語言文字資訊化規範標準100多項,為自然語言處理技術在人工智慧、數字産品和資訊産業領域的應用創新奠定規範基礎。
面向人工智慧時代,該負責人介紹,要開展語言資源建設、管理、應用、共用標準研究,重點推進語料庫、數據標注、數據評價等規範標準的制訂;服務教育教學,研製大語言模型能力素養(師生版),引導師生有效、安全使用大語言模型等人工智慧技術;助力文化傳承,研製甲骨文數字化共用技術標準。
此外,既要支援語言文字資訊處理基礎標準研究,也要鼓勵高校、企業開展行業標準、企業標準研製。加強與工信部、國家民委、國家標準委等部門單位合作。推動已有語言文字資訊化相關規範標準的修訂工作,加強已有規範標準的宣傳推廣等。
在專業化人才隊伍培養上,教育部語言文字資訊管理司相關負責人提到,推動高校增設語言智慧、計算語言學等交叉學科方向,增設“語言文字+人工智慧”核心課程。此外,鼓勵企業建設産教融合實訓基地,開展中文資訊處理、多語種機器翻譯、語料加工處理、數據標注等技能培訓,提升中文專業以及相關專業學生的職業技能,擴大就業範圍和就業渠道。
“今年是落實《教育強國建設規劃綱要(2024-2035年)》的關鍵之年,語言文字資訊化發展將展望十年、謀劃五年、立足三年,把握賦能全局高度,加快試點先行進度,激發協同創新力度,在落實重點任務上下功夫、見實效。”在前不久舉行的教育部新聞發佈會上,教育部語言文字資訊管理司司長劉培俊説。
中青報·中青網記者 楊潔 來源:中國青年報
關於我們 合作推廣 聯繫電話:18901119810 010-88824959 詹先生 電子郵箱:zht@china.org.cn
版權所有 中國網際網路新聞中心 京ICP證 040089號-1 網際網路新聞資訊服務許可證 10120170004號 網路傳播視聽節目許可證號:0105123