2025-06-06 04:00 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-27 08:25 UTC+8

Common Pile v0.1：一個8TB的公共領域和開放許可文本資料集

EleutherAI釋出了Common Pile v0.1，一個8TB的公開許可和公共領域文本資料集，旨在促進開放科學和AI研究的透明度。該資料集由多個機構合作構建，並訓練了Comma v0.1模型，效能與未許可資料訓練的模型相當。

四年前，EleutherAI透過釋出Pile資料集（800GB的多樣化文本）進入了AI領域。Pile在當時獨樹一幟，開創了諸如PubMed和StackExchange等如今標準的資料來源，並引入了程式碼與自然語言聯合訓練的理念。更重要的是，它是當時由建立者公開發布的最大預訓練資料集，其上的GPT-Neo模型成為最強開源GPT-3風格模型。公開大規模訓練資料集對於嚴謹的科學研究至關重要，涉及記憶與隱私、資料策劃、訓練動態、偏見與公平等領域的研究都離不開訓練資料。然而，近年來關於機器學習資料使用的訴訟層出不窮，儘管這些訴訟並未實質性改變資料來源實踐，卻導致公司透明度大幅下降。從2020-2022年釋出的模型到2023年至今的模型，透明度呈現下降趨勢。即使是OpenAI、Anthropic、Google DeepMind等以封閉著稱的公司，過去也曾披露大量預訓練資料混合和實驗資訊。部分公司的研究人員甚至明確表示，訴訟阻礙了他們釋出資料密集型研究。儘管AI2、Hugging Face、Zyphra、LLM360等少陣列織逆勢而上，但公共預訓練語料庫的增長速度遠不及公共預訓練模型。

今天，我們激動地宣佈Pile的繼任者——Common Pile v0.1的長期期待發布。與多倫多大學、Vector Institute、Hugging Face、艾倫人工智慧研究所等機構合作，我們過去兩年精心策劃了一個8TB的公開許可和公共領域文本語料庫，用於訓練大型語言模型。同時我們還發布了Comma v0.1-1T和Comma v0.1-2T模型，分別用1萬億和2萬億token訓練。所有資源已在arXiv、Hugging Face和GitHub上釋出。

在資料集構建中，我們面臨許可證識別的巨大挑戰。自動工具可靠性不足，我們依賴可信後設資料和手動策劃。程式碼庫方面，我們藉助軟體遺產基金會和BigCode專案的工具。公共領域作品更難識別，因為版權狀態因司法管轄區而異。我們與Mozilla合作在2024年6月舉辦了資料集座談會，併發布了音訊轉錄和文件轉換工具。我們相信，開源AI社群與圖書館、博物館、檔案館的合作潛力巨大。

關於模型效能，我們訓練了兩個7B引數的Comma模型，發現其與在未許可資料上訓練的領先模型表現相當。在更小規模的消融研究中，Common Pile v0.1訓練的模型優於KL3M、OLC和Common Corpus，與Pile或OSCAR訓練的模型相當，但與FineWeb仍有差距。我們認為這一差距源於FineWeb更大的初始資料池和更激進的過濾策略。隨著開放資料的增長，質量差距有望縮小。

Common Pile v0.1只是第一步。我們計劃更頻繁地釋出開放資料集，解鎖目前不可用的開放許可資料，並探索開放許可的後訓練資料。我們誠邀各界合作，共同推動開放資料生態系統的發展。