AI News HubLIVE
站內改寫2 分鐘閱讀

Common Pile v0.1:一個8TB的公共領域和開放許可文本數據集

EleutherAI發佈了Common Pile v0.1,一個8TB的公開許可和公共領域文本數據集,旨在促進開放科學和AI研究的透明度。該數據集由多個機構合作構建,並訓練了Comma v0.1模型,性能與未許可數據訓練的模型相當。

四年前,EleutherAI通過發佈Pile數據集(800GB的多樣化文本)進入了AI領域。Pile在當時獨樹一幟,開創了諸如PubMed和StackExchange等如今標準的數據源,並引入了代碼與自然語言聯合訓練的理念。更重要的是,它是當時由創建者公開發布的最大預訓練數據集,其上的GPT-Neo模型成為最強開源GPT-3風格模型。公開大規模訓練數據集對於嚴謹的科學研究至關重要,涉及記憶與隱私、數據策劃、訓練動態、偏見與公平等領域的研究都離不開訓練數據。然而,近年來關於機器學習數據使用的訴訟層出不窮,儘管這些訴訟並未實質性改變數據來源實踐,卻導致公司透明度大幅下降。從2020-2022年發佈的模型到2023年至今的模型,透明度呈現下降趨勢。即使是OpenAI、Anthropic、Google DeepMind等以封閉著稱的公司,過去也曾披露大量預訓練數據混合和實驗信息。部分公司的研究人員甚至明確表示,訴訟阻礙了他們發佈數據密集型研究。儘管AI2、Hugging Face、Zyphra、LLM360等少數組織逆勢而上,但公共預訓練語料庫的增長速度遠不及公共預訓練模型。

今天,我們激動地宣佈Pile的繼任者——Common Pile v0.1的長期期待發布。與多倫多大學、Vector Institute、Hugging Face、艾倫人工智能研究所等機構合作,我們過去兩年精心策劃了一個8TB的公開許可和公共領域文本語料庫,用於訓練大型語言模型。同時我們還發布了Comma v0.1-1T和Comma v0.1-2T模型,分別用1萬億和2萬億token訓練。所有資源已在arXiv、Hugging Face和GitHub上發佈。

在數據集構建中,我們面臨許可證識別的巨大挑戰。自動工具可靠性不足,我們依賴可信元數據和手動策劃。代碼庫方面,我們藉助軟件遺產基金會和BigCode項目的工具。公共領域作品更難識別,因為版權狀態因司法管轄區而異。我們與Mozilla合作在2024年6月舉辦了數據集座談會,併發布了音頻轉錄和文檔轉換工具。我們相信,開源AI社區與圖書館、博物館、檔案館的合作潛力巨大。

關於模型性能,我們訓練了兩個7B參數的Comma模型,發現其與在未許可數據上訓練的領先模型表現相當。在更小規模的消融研究中,Common Pile v0.1訓練的模型優於KL3M、OLC和Common Corpus,與Pile或OSCAR訓練的模型相當,但與FineWeb仍有差距。我們認為這一差距源於FineWeb更大的初始數據池和更激進的過濾策略。隨着開放數據的增長,質量差距有望縮小。

Common Pile v0.1只是第一步。我們計劃更頻繁地發佈開放數據集,解鎖目前不可用的開放許可數據,並探索開放許可的後訓練數據。我們誠邀各界合作,共同推動開放數據生態系統的發展。