上海人工智慧實驗室發佈多模態語料

指數發表于：2023-08-17 09:18

近日，上海人工智慧實驗室宣佈聯合語料數據聯盟成員單位，共同開源發佈“書生·萬卷”1.0多模態預訓練語料。

“書生·萬卷”1.0集合了語料數據聯盟成員豐富的內容積累與上海人工智慧實驗室的數據處理能力等優勢，將為學術界及産業界提供高品質大模型多模態預訓練語料。本次開源的數據總量超過2TB，具備多元融合、精細處理、價值對齊、易用高效等四大特徵。

本次開源的“書生·萬卷”1.0包含文本、圖文、視頻三部分數據集。其中文本數據來自網頁、百科、書籍、專利、教材、考題等，數據總量超過5億個文檔，數據大小超過1TB，覆蓋科技、文學、媒體、教育、法律等多個領域；圖文數據主要來自公開網頁，經處理後形成圖文交錯文檔，總量超過2200萬個，數據大小超過140GB（不含圖片），覆蓋新聞事件、人物、自然景觀、社會生活等多個領域；視頻數據主要來自中央廣播電視總臺和上海文廣集團，包含新聞、影視等多種類型的節目影像，總計視頻文件數超過1000個，數據大小超過900GB，內容覆蓋軍事、文藝、體育、自然、知識、影像藝術等方面。記者沈文敏

來源：人民日報海外版責任編輯：鄒鈺坤

(原標題：上海人工智慧實驗室發佈多模態語料)