Common Pile v0.1:一個8TB的公共領域和開放許可文本資料集
EleutherAI釋出了Common Pile v0.1,一個8TB的公開許可和公共領域文本資料集,旨在促進開放科學和AI研究的透明度。該資料集由多個機構合作構建,並訓練了Comma v0.1模型,效能與未許可資料訓練的模型相當。
四年前,EleutherAI透過釋出Pile資料集(800GB的多樣化文本)進入了AI領域。Pile在當時獨樹一幟,開創了諸如PubMed和StackExchange等如今標準的資料來源,並引入了程式碼與自然語言聯合訓練的理念。更重要的是,它是當時由建立者公開發布的最大預訓練資料集,其上的GPT-Neo模型成為最強開源GPT-3風格模型。公開大規模訓練資料集對於嚴謹的科學研究至關重要,涉及記憶與隱私、資料策劃、訓練動態、偏見與公平等領域的研究都離不開訓練資料。然而,近年來關於機器學習資料使用的訴訟層出不窮,儘管這些訴訟並未實質性改變資料來源實踐,卻導致公司透明度大幅下降。從2020-2022年釋出的模型到2023年至今的模型,透明度呈現下降趨勢。即使是OpenAI、Anthropic、Google DeepMind等以封閉著稱的公司,過去也曾披露大量預訓練資料混合和實驗資訊。部分公司的研究人員甚至明確表示,訴訟阻礙了他們釋出資料密集型研究。儘管AI2、Hugging Face、Zyphra、LLM360等少陣列織逆勢而上,但公共預訓練語料庫的增長速度遠不及公共預訓練模型。
今天,我們激動地宣佈Pile的繼任者——Common Pile v0.1的長期期待發布。與多倫多大學、Vector Institute、Hugging Face、艾倫人工智慧研究所等機構合作,我們過去兩年精心策劃了一個8TB的公開許可和公共領域文本語料庫,用於訓練大型語言模型。同時我們還發布了Comma v0.1-1T和Comma v0.1-2T模型,分別用1萬億和2萬億token訓練。所有資源已在arXiv、Hugging Face和GitHub上釋出。
在資料集構建中,我們面臨許可證識別的巨大挑戰。自動工具可靠性不足,我們依賴可信後設資料和手動策劃。程式碼庫方面,我們藉助軟體遺產基金會和BigCode專案的工具。公共領域作品更難識別,因為版權狀態因司法管轄區而異。我們與Mozilla合作在2024年6月舉辦了資料集座談會,併發布了音訊轉錄和文件轉換工具。我們相信,開源AI社群與圖書館、博物館、檔案館的合作潛力巨大。
關於模型效能,我們訓練了兩個7B引數的Comma模型,發現其與在未許可資料上訓練的領先模型表現相當。在更小規模的消融研究中,Common Pile v0.1訓練的模型優於KL3M、OLC和Common Corpus,與Pile或OSCAR訓練的模型相當,但與FineWeb仍有差距。我們認為這一差距源於FineWeb更大的初始資料池和更激進的過濾策略。隨著開放資料的增長,質量差距有望縮小。
Common Pile v0.1只是第一步。我們計劃更頻繁地釋出開放資料集,解鎖目前不可用的開放許可資料,並探索開放許可的後訓練資料。我們誠邀各界合作,共同推動開放資料生態系統的發展。