(相關資料圖)
據人民日報海外版報導,近日,上海人工智能實驗室宣布聯合語料數據聯盟成員單位,共同開源發布“書生·萬卷”1.0多模態預訓練語料。
“書生·萬卷”1.0集合了語料數據聯盟成員豐富的內容積累與上海人工智能實驗室的數據處理能力等優勢,將為學術界及產業界提供高質量大模型多模態預訓練語料。本次開源的數據總量超過2TB,具備多元融合、精細處理、價值對齊、易用高效等四大特征。
本次開源的“書生·萬卷”1.0包含文本、圖文、視頻三部分數據集。其中文本數據來自網頁、百科、書籍、專利、教材、考題等,數據總量超過5億個文檔,數據大小超過1TB,覆蓋科技、文學、媒體、教育、法律等多個領域;圖文數據主要來自公開網頁,經處理后形成圖文交錯文檔,總量超過2200萬個,數據大小超過140GB(不含圖片),覆蓋新聞事件、人物、自然景觀、社會生活等多個領域;視頻數據主要來自中央廣播電視總臺和上海文廣集團,包含新聞、影視等多種類型的節目影像,總計視頻文件數超過1000個,數據大小超過900GB,內容覆蓋軍事、文藝、體育、自然、知識、影像藝術等方面。
關鍵詞:
版權與免責聲明:
1 本網注明“來源:×××”(非商業周刊網)的作品,均轉載自其它媒體,轉載目的在于傳遞更多信息,并不代表本網贊同其觀點和對其真實性負責,本網不承擔此類稿件侵權行為的連帶責任。
2 在本網的新聞頁面或BBS上進行跟帖或發表言論者,文責自負。
3 相關信息并未經過本網站證實,不對您構成任何投資建議,據此操作,風險自擔。
4 如涉及作品內容、版權等其它問題,請在30日內同本網聯系。