Common Pile v0.1:8TBのパブリックドメインおよびオープンライセンステキストデータセット
EleutherAIは、Common Pile v0.1を発表しました。これは、8TBのパブリックドメインおよびオープンライセンステキストのデータセットで、AI研究の透明性とオープンサイエンスを促進します。複数の機関と協力して構築され、トレーニングされたComma v0.1モデルは、非ライセンスデータでトレーニングされたモデルと同等のパフォーマンスを示します。
約4年半前、EleutherAIは800GBの多様なテキストデータセット「The Pile」をリリースし、AIシーンに登場しました。Pileは、PubMedやStackExchangeなどの現在では標準的なデータソースを開拓し、コードと自然言語を併用したトレーニングの概念を導入しました。何より重要なのは、当時としては最大の公開トレーニングデータセットであり、その上でトレーニングされたGPT-Neoは最強のオープンソースGPT-3スタイルモデルでした。大規模トレーニングデータセットの公開は、厳密な科学研究に不可欠です。 memorization(記憶)やプライバシー、データキュレーション、カリキュラム学習、トレーニングダイナミクス、バイアスと公平性などの研究には、トレーニングデータへのアクセスが必須です。さらに、共有コーパスは制御されたアブレーション研究や直接比較を可能にします。近年、機械学習におけるデータ使用に関する訴訟が数十件発生していますが、これらはデータ調達の実践を大きく変えることなく、企業の透明性を大幅に低下させました。2020~2022年にリリースされたモデルと2023年以降のモデルを比較すると、透明性の低下傾向が明らかです。OpenAI、Anthropic、Google DeepMindのような閉鎖的で有名な企業でさえ、かつてはプレトレーニングデータの混合やコーパス設計に関する実験について多くの情報を開示していました。しかし、近年の同じ企業の研究ではそのような洞察は見られません。一部の企業の研究者は、訴訟のためにデータ中心の研究を公開できないと述べています。AI2、Hugging Face、Zyphra、LLM360などの少数の組織はこの傾向に逆らっていますが、公開プレトレーニングコーパスの成長率は公開プレトレーニングモデルの成長率に遠く及びません。
本日、私たちは待望のPileの後継者、Common Pile v0.1のリリースを発表できることを嬉しく思います。トロント大学、Vector Institute、Hugging Face、Allen Institute for AI、Teraflop AI、コーネル大学、MIT、CMU、Lila Sciences、poolside、メリーランド大学カレッジパーク校、ローレンスリバモア国立研究所との協力のもと、2年間かけて8TBのオープンライセンスおよびパブリックドメインテキストのコーパスを厳選しました。また、このデータセットでそれぞれ1兆トークンおよび2兆トークンでトレーニングされたComma v0.1-1TおよびComma v0.1-2Tモデルもリリースします。すべてのリソースはarXiv、Hugging Face、GitHubで公開されています。
データセット構築において、ライセンス識別は大きな課題でした。自動ツールは信頼性に欠けるため、信頼できるメタデータと手動キュレーションに依存しました。コードリポジトリについては、Software Heritage FoundationやBigCodeプロジェクトの優れたツールを活用しました。パブリックドメイン作品の識別はさらに困難で、管轄区域によって著作権状況が異なります。2024年6月にはMozillaと共同でデータセットコンビーニングを開催し、オープンデータのベストプラクティスについて議論しました。また、Whisperによる音声文字起こしやDoclingによるドキュメント変換のためのスタンドアロンツールもリリースしました。文化遺産分野との協力には大きな可能性があると考えています。
モデル性能に関しては、2つの7Bパラメータモデルをトレーニングし、非ライセンスデータでトレーニングされた主要モデルと同等のパフォーマンスを示すことを確認しました。小規模なアブレーション研究では、Common Pile v0.1でトレーニングされたモデルはKL3M、OLC、Common Corpusを上回り、PileやOSCARでトレーニングされたモデルと同等でしたが、FineWebに対してはギャップがあります。このギャップはFineWebのより大きな初期データプールと積極的なフィルタリングによるものと考えられます。オープンライセンスデータの量が増えるにつれて、品質ギャップは縮小すると期待されます。
Common Pile v0.1は第一歩に過ぎません。今後、より頻繁にオープンデータセットをリリースし、現在利用不可能なオープンライセンスデータを解放し、コモンズに貢献していく予定です。また、Comma v0.1モデルをより有用にするためのオープンライセンスポストトレーニングデータにも関心を持っています。