多言語AIを構築する研究者と開発者を加速する新しいオープンデータセット
GitHubがGitHub Multilingual Repositories Dataset(CC0-1.0)を公開。4000万以上のリポジトリにわたる8000万以上の分類行を含むメタデータセットで、README、Issue、プルリクエストの言語分類を提供し、多言語開発者コンテンツの発見とAIツールの開発を促進する。
ソフトウェアはプログラミング言語で書かれていますが、開発者のコラボレーションの中心にあるのは人間の言語です。開発者はREADMEでプロジェクトの仕組みを説明し、Issueで助けを求め、プルリクエストでコードをレビュー、議論、改良します。そのコラボレーションは多くの場合英語で行われますが、常にそうとは限りません。AIがソフトウェア開発の一部としてますます重要になるにつれて、多言語の開発者コンテンツはこれまで以上に重要になっています。
本日、GitHubはGitHub Multilingual Repositories Datasetを公開します。これはリポジトリレベルのメタデータセットで、非英語の自然言語コンテンツが存在する公開GitHubリポジトリを研究者や開発者が発見できるように設計されています。データセットの構築中に、言語分布がREADME、Issue、プルリクエストで異なることがわかりました。韓国語はIssueテキストで最も一般的な非英語ですが、READMEでは5番目にすぎません。ポルトガル語は非英語READMEでトップであり、300万以上のリポジトリがあります。
このデータセットはCC0-1.0ライセンスでGitHub上で利用可能になりました。これは2025年にマイクロソフトの欧州デジタルコミットメントの一環として行った、多言語データをよりアクセスしやすくする(オープンソースAI開発者を含む)という約束を果たすものです。
データセットの内容
GitHub Multilingual Repositories Datasetは意図的にリポジトリコンテンツのダンプではありません。代わりに、多言語コラボレーションが行われている可能性のあるリポジトリを見つけるためのメタデータセットです。データセットは4000万以上のリポジトリにわたる8000万以上の分類行をカバーしています。各公開リポジトリについて以下を提供します。
- README、最もコメントされたIssue、最もコメントされたプルリクエストの言語分類。各テキストの最初の150文字を入力サンプルとして使用(20文字未満のテキストは除外)。
- fastText、gcld3、lingua-pyの3つの分類器からの分類結果と信頼度スコア。データセットには信頼度0.5を超える分類のみが含まれます。
- リポジトリメタデータ:作成タイムスタンプ、ディスク使用量、スター数、フォーク数、主要プログラミング言語、SPDXライセンス、IssueとPRの数、スナップショット日付。
私たちは意図的に3つの分類器を1つのラベルに統合しませんでした。異なる分類器は、特に低リソース言語において、カバレッジと信頼度のキャリブレーションが異なります。3つすべてを公開することで、厳しさを自由に選択できます。高精度のギリシャ語サブセットが必要ですか?3つの分類器すべてが特定の信頼度閾値を超えて一致することを要求します。ロマンス諸語の探索的研究のために広い再現率が必要ですか?1つの分類器で十分かもしれません。
これで構築できるもの
このデータセットは、一般的なウェブテキストでは難しい作業のために設計されています。
- 特定の言語の開発者ドキュメントやコラボレーションが含まれている可能性の高いリポジトリを発見。
- 非英語の開発者コミュニティがIssue、PR、READMEをどのように使用しているかを研究。
- 複数言語にわたって良好に動作する必要があるAIコーディングツール、ドキュメントジェネレーター、レビューアシスタントの評価セットを構築。
- 開発者の豊かな多言語多様性に関するデータに基づく議論を用いて、意思決定者に新しい開発者ツールやAI機能の言語カバレッジ拡大を促す。
- ヨーロッパの言語やその他の過小評価されている言語のオープンソースにおける代表性を測定。
注意点
ソフトウェアリポジトリにおける言語識別は困難です。リポジトリのテキストはしばしば短く、バッジ、テンプレート、インストールコマンド、コードスニペット、ユーザー名、または複数言語のコンテンツが含まれる場合があります。150文字のサンプルはリポジトリ全体を代表していない可能性があります。分類器はカバレッジとキャリブレーションが異なり、特に低リソース言語ではその傾向が強まります。
そのため、このデータセットは言語識別のグランドトゥルースベンチマークとして扱うべきではありません。代わりに、透明な発見ツールとして設計されています。ユーザーは分類、信頼度スコア、ソースを検査し、自分たちの研究や開発ワークフローに合った精度と再現率のトレードオフを選択できます。
また、このデータセットはリポジトリの所有者、貢献者、コミュニティの機密属性を推測するために使用すべきではありません。信号はリポジトリレベルのメタデータであり、個人レベルの属性ではありません。
オープンな多言語データが重要な理由
現在、多くのヨーロッパ言語はAIシステムの構築と評価に使用されるオンラインテキストにおいて依然として過小評価されています。これにより、AIツールが一部の開発者、言語、コミュニティではうまく機能する一方で、他のグループを取り残すリスクが生じます。オープンデータはそのギャップを埋めるのに役立ちます。私たちがこのデータセットを構築した理由は、開発者コンテンツが一般的なウェブテキストとは異なるからです。README、Issue、プルリクエストには、ソフトウェアコラボレーションの言語(インストール手順、バグ報告、機能リクエスト、レビューコメント、コミュニティ規範)が含まれています。そのコンテキストは、開発者が実際にどのように働いているかをよりよく理解するAIシステムの構築に役立ちます。
多言語の開発者コンテンツのシグナルを発見・分析しやすくすることで、このデータセットは研究者、オープンソース開発者、モデルビルダーに、ソフトウェア開発における言語代表制を研究するための別のツールを提供します。ギャップの特定、より良い評価のサポート、ヨーロッパおよびそれ以外の開発者向けのより包括的なAIツールの情報提供に役立ちます。また、より広い原則を反映しています。開発者向けAIを構築するには、開発者が実際に使用するコミュニティ、言語、ワークフローを含めるべきです。
今後の予定
6月16日にストラスブールのOpen Innovation Dialogue Hubで、このデータセットと多言語AIにおけるオープンデータの重要性について議論します。このイベントはMicrosoft Open Innovation Center、欧州評議会、GitHubが共同主催し、政策立案者、研究者、文化機関、オープンイノベーションリーダーが集まり、AI、言語多様性、文化遺産、オープンデータについて議論します。
多言語AIには多言語の開発者コミュニティが必要です。このデータセットがより多くの人々にそれらのコミュニティを研究、支援、構築する助けとなることを願っています。CC0-1.0でGitHub上に公開することで、研究者、オープンソースメンテナー、モデルビルダーに、使用、批評、拡張、そしてその上に評価セットやツールを構築することを招待しています。
もし興味深いことをしたら、ぜひ教えてください。