2025-06-06 04:00 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-27 08:25 UTC+8

Common Pile v0.1：一個8TB的公共領域和開放許可文本數據集

EleutherAI發佈了Common Pile v0.1，一個8TB的公開許可和公共領域文本數據集，旨在促進開放科學和AI研究的透明度。該數據集由多個機構合作構建，並訓練了Comma v0.1模型，性能與未許可數據訓練的模型相當。

四年前，EleutherAI通過發佈Pile數據集（800GB的多樣化文本）進入了AI領域。Pile在當時獨樹一幟，開創了諸如PubMed和StackExchange等如今標準的數據源，並引入了代碼與自然語言聯合訓練的理念。更重要的是，它是當時由創建者公開發布的最大預訓練數據集，其上的GPT-Neo模型成為最強開源GPT-3風格模型。公開大規模訓練數據集對於嚴謹的科學研究至關重要，涉及記憶與隱私、數據策劃、訓練動態、偏見與公平等領域的研究都離不開訓練數據。然而，近年來關於機器學習數據使用的訴訟層出不窮，儘管這些訴訟並未實質性改變數據來源實踐，卻導致公司透明度大幅下降。從2020-2022年發佈的模型到2023年至今的模型，透明度呈現下降趨勢。即使是OpenAI、Anthropic、Google DeepMind等以封閉著稱的公司，過去也曾披露大量預訓練數據混合和實驗信息。部分公司的研究人員甚至明確表示，訴訟阻礙了他們發佈數據密集型研究。儘管AI2、Hugging Face、Zyphra、LLM360等少數組織逆勢而上，但公共預訓練語料庫的增長速度遠不及公共預訓練模型。

今天，我們激動地宣佈Pile的繼任者——Common Pile v0.1的長期期待發布。與多倫多大學、Vector Institute、Hugging Face、艾倫人工智能研究所等機構合作，我們過去兩年精心策劃了一個8TB的公開許可和公共領域文本語料庫，用於訓練大型語言模型。同時我們還發布了Comma v0.1-1T和Comma v0.1-2T模型，分別用1萬億和2萬億token訓練。所有資源已在arXiv、Hugging Face和GitHub上發佈。

在數據集構建中，我們面臨許可證識別的巨大挑戰。自動工具可靠性不足，我們依賴可信元數據和手動策劃。代碼庫方面，我們藉助軟件遺產基金會和BigCode項目的工具。公共領域作品更難識別，因為版權狀態因司法管轄區而異。我們與Mozilla合作在2024年6月舉辦了數據集座談會，併發布了音頻轉錄和文檔轉換工具。我們相信，開源AI社區與圖書館、博物館、檔案館的合作潛力巨大。

關於模型性能，我們訓練了兩個7B參數的Comma模型，發現其與在未許可數據上訓練的領先模型表現相當。在更小規模的消融研究中，Common Pile v0.1訓練的模型優於KL3M、OLC和Common Corpus，與Pile或OSCAR訓練的模型相當，但與FineWeb仍有差距。我們認為這一差距源於FineWeb更大的初始數據池和更激進的過濾策略。隨着開放數據的增長，質量差距有望縮小。

Common Pile v0.1只是第一步。我們計劃更頻繁地發佈開放數據集，解鎖目前不可用的開放許可數據，並探索開放許可的後訓練數據。我們誠邀各界合作，共同推動開放數據生態系統的發展。