AI News HubLIVE
サイト内リライト4 分で読了

Hugging FaceモデルページでのEvery Eval Ever結果の表示

Every Eval Ever(EEE)とHugging Face Community Evalsが相互運用可能になり、評価結果のクロスポストと解釈が可能になり、オープンモデル、リーダーボード、統一された標準化メタデータストアへのリンクが提供されます。

Every Eval Ever(EEE)とHugging Face Community Evalsが相互運用可能になり、この統合により評価結果の公開と解釈が容易になり、オープンモデル、リーダーボード、統一された標準化メタデータストアへのリンクが可能になります。

EEEは2026年2月にEvalEval連合のプロジェクトとして開始されました。これはAI評価結果の報告方法を改善するための初のクロスインスティテューショナルな取り組みで、評価者が第一者か第三者かを問いません。同時期にHugging FaceはCommunity Evalsを開始し、Hub上でのベンチマークスコアの報告を分散化しました。両者の組み合わせにより、ユーザー、研究者、政策立案者が評価とモデルを信頼し、理解し、選択する際のギャップを埋めます。

評価結果はモデル能力の測定、モデル間の比較、安全性とガバナンスに関する推論に不可欠ですが、現在は分散しており比較が困難です。結果は論文、リーダーボード、ブログ記事、ハーネスログなど様々な形式で存在し、同じモデルが同じベンチマークでも実行主体や方法によって異なるスコアを返すことがよくあります。例えばLLaMA 65BはMMLUで63.7と48.8の両方が報告されています。これらの差異は、一般的に報告されていない評価設定に起因する可能性があります。

EEEは報告側の問題を解決するためのものです。これは評価結果を記録する統一JSONスキーマで、実行主体、モデル、アクセス方法、生成設定、メトリクスの実際の意味、オプションのサンプル単位の出力JSONLファイルを含みます。このスキーマは研究者や政策研究者からのフィードバックに基づいて構築され、あらゆるソースからの結果を受け入れられるため、ハーネスログ、リーダーボードのスクレイプ、論文の数値がすべて同じ形式になります。GitHubリポジトリにはコンバータ、例、コントリビュータガイドがあります。ローンチ以来、Hugging Face上のデータストアは約229,000の評価結果に成長し、22,000以上のモデルと2,200のベンチマークをカバーし、31の異なる報告形式から収集されました。これらの実行をゼロから再現するには数十万ドルのコストがかかるため、一度生成されたデータを分散させないことは合理的な議論です。

現在、この統合により、より良い統合と帰属が実現しました。コントリビュータはEEE結果をHugging Face Community Evalsに送信できるようになりました。私たちはEEEレコードをHugging Faceが期待する小さなYAMLファイルに変換するコンバータを構築しました。これにより、同じ結果を手動で2つの形式で維持する必要がなくなります。これは既存のEEEコントリビュータだけでなく、評価を報告または読むすべての人にとって新しい機能です。自身のモデルを報告する第一者評価者も、他者のモデルを評価する第三者評価者も、Community EvalsとEEEの両方に結果を提出でき、Hubを閲覧する誰もが完全なレコードにトレース可能な結果を得られます。組織の公式Hugging Faceアカウントを通じてデータを提出すると、結果はEvalEval上で検証済みのチェックマークとともに表示され、数字が直接ソースからのものであることを読者に示します。

Hugging Face Community EvalsとEvalEvalの連携方法

Hugging Face Community Evalsには2つの側面があります。ベンチマークはeval.yamlを追加することで自身を登録するデータセットリポジトリに存在します。登録されると、そのデータセットページはHub上で報告されたすべてのスコアのリーダーボードを収集して表示します。公式ベンチマークのリストは時間とともに拡大します。モデルのスコアはモデルリポジトリ内の.eval_results/*.yamlに保存され、モデルカードに表示され、対応するベンチマークリーダーボードにフィードされます。モデル作者自身の結果と、他の誰かがプルリクエストを通じて提出した結果の両方が集約され、各スコアには作者提出、コミュニティ提出、独立検証のいずれかを示すバッジが付きます。誰でも適切なYAMLファイルを含むPRを開くことで任意のモデルにスコアを追加でき、モデル作者はPRを閉じたり、自身のリポジトリで結果を非表示にしたりできます。

EEEとCommunity Evalsの連携は次のように機能します。結果を両方に送信すると、2つのことが起こります。まず、スコアがHugging Faceモデルページに表示され、ベンチマークのリーダーボードに取り込まれます。次に、スコアは完全なEEEレコードに直接リンクするソースバッジを伴い、生成設定、ハーネスバージョン、再現性ノート、インスタンスレベルのデータが含まれます。

2つの宛先は同じ目標に対して異なる役割を果たします。Hugging Faceは結果を人々がモデルを見る場所に配置し、ソースへのリンクを提供します。EEEは結果を解釈可能にする完全な構造化レコードを保持し、その上でEval Cardsを提供します。両方にデータを送信することで、同じ評価が可視かつ解釈可能になり、これが評価を報告する意義です。

動作方法

Hugging Faceは評価スコアをモデルリポジトリの.eval_results/下のYAMLに保存します。必須フィールドはベンチマークデータセット、タスク、値のみです。sourceブロックはEEEへの逆リンクを作成する部分です。コンバータは既存のレコードからこれらのフィールドを埋めます。source_data.hf_repoをdataset.idに、evaluation_nameをtask_idに、score_details.scoreをvalueに、evaluation_timestampをdateにマッピングし、データストアオブジェクトURLを各レコードのEEE JSONへのソースリンクとして挿入します。現在、MMLU-Pro、GPQA、HLE、GSM8Kの4つの公式ベンチマークをサポートしています。

コンバータはフィールドを再形成するだけではありません。EEEデータストアコレクションを指定すると、そのコレクションとそれが参照するレコードをダウンロードし、オブジェクトハッシュをチェックし、サポートされているベンチマークにマッピングするスコアを見つけます。アクティブなものを書き込む前に、既存のものを監査します。モデルのメインブランチとオープンPR内のすべての.eval_results YAMLを読み取り、ファイル名ではなくデータセットとタスクで比較します。スコアが既に存在する場合はalready_present、異なるスコアが存在する場合はscore_conflict、モデルリポジトリがHub上で解決できない場合はmissing_hf_modelとマークされます。その他はreadyとマークされます。

あなたの承認なしに何もプッシュされません。ツールはローカルYAMLプレビューと確認ファイルを書き込み、準備完了と注意が必要な項目のレポートを表示し、OPEN PRSと入力してコミットメッセージを入力した場合のみPRを開きます。再実行時は、--forceを指定しない限り、コレクションのキャッシュ結果を再利用します。

開始方法

まず完全なレコードをEEEデータストアに提出します。次にコミュニティ評価コンバータツールを使用してコレクションを処理します。生成されたプレビューとレポートを確認し、OPEN PRSと入力して提出します。スキーマ、CLI、コンバータの完全なドキュメントはevalevalai.com/every_eval_ever/hf-community-evalsにあります。

Hugging FaceモデルページでのEvery Eval Ever結果の表示 | AI News Hub