Common Pile v0.1:一个8TB的公共领域和开放许可文本数据集
EleutherAI发布了Common Pile v0.1,一个8TB的公开许可和公共领域文本数据集,旨在促进开放科学和AI研究的透明度。该数据集由多个机构合作构建,并训练了Comma v0.1模型,性能与未许可数据训练的模型相当。
四年前,EleutherAI通过发布Pile数据集(800GB的多样化文本)进入了AI领域。Pile在当时独树一帜,开创了诸如PubMed和StackExchange等如今标准的数据源,并引入了代码与自然语言联合训练的理念。更重要的是,它是当时由创建者公开发布的最大预训练数据集,其上的GPT-Neo模型成为最强开源GPT-3风格模型。公开大规模训练数据集对于严谨的科学研究至关重要,涉及记忆与隐私、数据策划、训练动态、偏见与公平等领域的研究都离不开训练数据。然而,近年来关于机器学习数据使用的诉讼层出不穷,尽管这些诉讼并未实质性改变数据来源实践,却导致公司透明度大幅下降。从2020-2022年发布的模型到2023年至今的模型,透明度呈现下降趋势。即使是OpenAI、Anthropic、Google DeepMind等以封闭著称的公司,过去也曾披露大量预训练数据混合和实验信息。部分公司的研究人员甚至明确表示,诉讼阻碍了他们发布数据密集型研究。尽管AI2、Hugging Face、Zyphra、LLM360等少数组织逆势而上,但公共预训练语料库的增长速度远不及公共预训练模型。
今天,我们激动地宣布Pile的继任者——Common Pile v0.1的长期期待发布。与多伦多大学、Vector Institute、Hugging Face、艾伦人工智能研究所等机构合作,我们过去两年精心策划了一个8TB的公开许可和公共领域文本语料库,用于训练大型语言模型。同时我们还发布了Comma v0.1-1T和Comma v0.1-2T模型,分别用1万亿和2万亿token训练。所有资源已在arXiv、Hugging Face和GitHub上发布。
在数据集构建中,我们面临许可证识别的巨大挑战。自动工具可靠性不足,我们依赖可信元数据和手动策划。代码库方面,我们借助软件遗产基金会和BigCode项目的工具。公共领域作品更难识别,因为版权状态因司法管辖区而异。我们与Mozilla合作在2024年6月举办了数据集座谈会,并发布了音频转录和文档转换工具。我们相信,开源AI社区与图书馆、博物馆、档案馆的合作潜力巨大。
关于模型性能,我们训练了两个7B参数的Comma模型,发现其与在未许可数据上训练的领先模型表现相当。在更小规模的消融研究中,Common Pile v0.1训练的模型优于KL3M、OLC和Common Corpus,与Pile或OSCAR训练的模型相当,但与FineWeb仍有差距。我们认为这一差距源于FineWeb更大的初始数据池和更激进的过滤策略。随着开放数据的增长,质量差距有望缩小。
Common Pile v0.1只是第一步。我们计划更频繁地发布开放数据集,解锁目前不可用的开放许可数据,并探索开放许可的后训练数据。我们诚邀各界合作,共同推动开放数据生态系统的发展。