> 指數

北京發佈大模型高品質數據集

首批“北京市人工智慧大模型高品質數據集”近日發佈,10家單位的18個高品質訓練數據集入選,包括人民日報語料數據集、國家法律法規語料數據集、兩會參政議政建言數據集、“科情頭條”全球科技動態數據集、中國科學引文數據庫數據集、科技文獻挖掘語義標注數據集等,涵蓋經濟、政治、文化、社會、生態等不同領域,總規模超過500T,將為通用大模型和行業大模型訓練提供有力保障。

為更好把握這次通用人工智慧發展的歷史性機遇,近期北京市連續出臺了《加快建設具有全球影響力的人工智慧創新策源地實施方案》《北京市促進通用人工智慧創新發展的若干措施》《北京市通用人工智慧産業創新夥伴計劃》等多項支援政策,釋放明確信號、搭建夥伴平臺、聚攏行業資源,助力人工智慧技術賦能千行百業數智化轉型。

目前,針對大模型訓練的高品質中文語料佔比較少,不利於中文語境表達及産業應用。為此,北京啟動實施“通用人工智慧産業創新夥伴計劃”,其中一個重要領域就是針對大模型訓練所需的高品質數據,發揮數據提供方海量數據資源優勢,基於數據交易方搭建的流通交易平臺和數據服務方的技術支撐,實現訓練數據的有效供給及合規高效、安全有序的流動。

來源:人民日報海外版  責任編輯:郭肖

(原標題:北京發佈大模型高品質數據集)