上海人工智能實驗室發布多模態語料

來源：中評網2023-08-18 14:30:44

(相關資料圖)

據人民日報海外版報導，近日，上海人工智能實驗室宣布聯合語料數據聯盟成員單位，共同開源發布“書生·萬卷”1.0多模態預訓練語料。

“書生·萬卷”1.0集合了語料數據聯盟成員豐富的內容積累與上海人工智能實驗室的數據處理能力等優勢，將為學術界及產業界提供高質量大模型多模態預訓練語料。本次開源的數據總量超過2TB，具備多元融合、精細處理、價值對齊、易用高效等四大特征。

本次開源的“書生·萬卷”1.0包含文本、圖文、視頻三部分數據集。其中文本數據來自網頁、百科、書籍、專利、教材、考題等，數據總量超過5億個文檔，數據大小超過1TB，覆蓋科技、文學、媒體、教育、法律等多個領域；圖文數據主要來自公開網頁，經處理后形成圖文交錯文檔，總量超過2200萬個，數據大小超過140GB（不含圖片），覆蓋新聞事件、人物、自然景觀、社會生活等多個領域；視頻數據主要來自中央廣播電視總臺和上海文廣集團，包含新聞、影視等多種類型的節目影像，總計視頻文件數超過1000個，數據大小超過900GB，內容覆蓋軍事、文藝、體育、自然、知識、影像藝術等方面。

關鍵詞：

責任編輯：sdnew003

返回首頁返回地產首頁

上海人工智能實驗室發布多模態語料

相關新聞

熱文排行

財經

綜合

黃金360

關注

熱門主題

綜合熱門

熱門主題

科技熱門

熱門主題

上海人工智能實驗室發布多模態語料

相關新聞

熱文排行 財經 綜合 黃金360

關注 熱門主題

綜合熱門 熱門主題

科技熱門 熱門主題

熱文排行

財經

綜合

黃金360

關注

熱門主題

綜合熱門

熱門主題

科技熱門

熱門主題