2025-06-06 04:00 UTC+8站内改写2 分钟阅读更新: 2026-06-27 08:25 UTC+8

Common Pile v0.1：一个8TB的公共领域和开放许可文本数据集

EleutherAI发布了Common Pile v0.1，一个8TB的公开许可和公共领域文本数据集，旨在促进开放科学和AI研究的透明度。该数据集由多个机构合作构建，并训练了Comma v0.1模型，性能与未许可数据训练的模型相当。

四年前，EleutherAI通过发布Pile数据集（800GB的多样化文本）进入了AI领域。Pile在当时独树一帜，开创了诸如PubMed和StackExchange等如今标准的数据源，并引入了代码与自然语言联合训练的理念。更重要的是，它是当时由创建者公开发布的最大预训练数据集，其上的GPT-Neo模型成为最强开源GPT-3风格模型。公开大规模训练数据集对于严谨的科学研究至关重要，涉及记忆与隐私、数据策划、训练动态、偏见与公平等领域的研究都离不开训练数据。然而，近年来关于机器学习数据使用的诉讼层出不穷，尽管这些诉讼并未实质性改变数据来源实践，却导致公司透明度大幅下降。从2020-2022年发布的模型到2023年至今的模型，透明度呈现下降趋势。即使是OpenAI、Anthropic、Google DeepMind等以封闭著称的公司，过去也曾披露大量预训练数据混合和实验信息。部分公司的研究人员甚至明确表示，诉讼阻碍了他们发布数据密集型研究。尽管AI2、Hugging Face、Zyphra、LLM360等少数组织逆势而上，但公共预训练语料库的增长速度远不及公共预训练模型。

今天，我们激动地宣布Pile的继任者——Common Pile v0.1的长期期待发布。与多伦多大学、Vector Institute、Hugging Face、艾伦人工智能研究所等机构合作，我们过去两年精心策划了一个8TB的公开许可和公共领域文本语料库，用于训练大型语言模型。同时我们还发布了Comma v0.1-1T和Comma v0.1-2T模型，分别用1万亿和2万亿token训练。所有资源已在arXiv、Hugging Face和GitHub上发布。

在数据集构建中，我们面临许可证识别的巨大挑战。自动工具可靠性不足，我们依赖可信元数据和手动策划。代码库方面，我们借助软件遗产基金会和BigCode项目的工具。公共领域作品更难识别，因为版权状态因司法管辖区而异。我们与Mozilla合作在2024年6月举办了数据集座谈会，并发布了音频转录和文档转换工具。我们相信，开源AI社区与图书馆、博物馆、档案馆的合作潜力巨大。

关于模型性能，我们训练了两个7B参数的Comma模型，发现其与在未许可数据上训练的领先模型表现相当。在更小规模的消融研究中，Common Pile v0.1训练的模型优于KL3M、OLC和Common Corpus，与Pile或OSCAR训练的模型相当，但与FineWeb仍有差距。我们认为这一差距源于FineWeb更大的初始数据池和更激进的过滤策略。随着开放数据的增长，质量差距有望缩小。

Common Pile v0.1只是第一步。我们计划更频繁地发布开放数据集，解锁目前不可用的开放许可数据，并探索开放许可的后训练数据。我们诚邀各界合作，共同推动开放数据生态系统的发展。