2026-04-29站内改写

AI評価は新たな計算ボトルネックになりつつある

本記事では、特にエージェントベンチマークにおけるAI評価コストの急上昇について考察し、評価が新たな計算ボトルネックになっていることを指摘する。静的ベンチマークは100～200倍に圧縮可能だが、エージェントやトレーニング・イン・ザ・ループのベンチマークは圧縮が難しい。信頼性には複数回の実行が必要で、コストが倍増する。高額な評価コストは、検証能力を資金豊富な研究室に集中させるリスクがある。

記事インテリジェンス

エンジニア上級

要点

AI評価コストは負担可能な閾値を超え、1回のエージェント評価で数万ドルかかる可能性がある。
静的ベンチマークは大幅に圧縮できるが、エージェントベンチマークは2～3.5倍の圧縮にとどまる。
信頼性には複数回の実行が必要で、コストが倍増し、多くの独立した評価者を締め出す。
評価コストの格差は外部検証のギャップを生み、評価力を一部の最先端研究室に集中させる恐れがある。

重要な理由

このニュースが重要なのは、AI評価コストは負担可能な閾値を超え、1回のエージェント評価で数万ドルかかる可能性があるためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

AI評価は新たな計算ボトルネックになりつつある。かつてはモデルのトレーニングがコストの主因であり、評価は比較的安価だった。しかし、エージェントベンチマークや科学機械学習ベンチマークの台頭により、状況は一変した。例えば、Holistic Agent Leaderboard（HAL）は1回の評価に約4万ドルを費やし、21,730のエージェントロールアウトを実行した。GAIAベンチマーク1回の実行には最大2,829ドルかかる。科学ML分野では、The Wellベンチマークが新しいアーキテクチャの評価に約960 H100時間を要し、完全なスイープには3,840 H100時間（約9,600ドル）が必要だ。

静的ベンチマークはかつて圧縮技術によって大幅なコスト削減を実現した。Flash-HELMやtinyBenchmarksはランキングの精度をほとんど損なわずに100～200倍の圧縮を達成した。しかし、エージェントベンチマークはインタラクティブでマルチステップな性質のため、圧縮効果は限定的であり、最善の手法（中難易度フィルタリング）でも2～3.5倍の削減にとどまる。さらに悪いことに、トレーニング・イン・ザ・ループのベンチマーク（PaperBenchやMLE-Benchなど）はほとんど圧縮不可能であり、評価自体がモデルのトレーニングを含むため、コストが本質的に高い。

信頼性はコストをさらに増大させる。単一の実行結果はノイズが多く、統計的有意性を得るには複数回の実行が必要だ。HALの信頼性分析では、実行回数を8回に増やすだけで総コストが4万ドルから約32万ドルに跳ね上がる。同様に、PaperBenchのマルチシード評価は7.5万ドルを超える。これにより、多くの学術グループや安全機関は独立した評価を断念せざるを得なくなっている。

評価コストの格差は深刻な結果をもたらす。コストを考慮しないリーダーボードは無駄なリソース消費を奨励し、効率を無視する。さらに重要なことは、最先端の実験室の予算だけが信頼できるベンチマーク結果を生み出せる場合、外部検証は形骸化する。評価力はモデルを開発する同じ研究室に集中し、オープンサイエンスの精神に反する。

解決策としては、評価の標準化、インスタンスレベルの出力データの共有、コスト認識型のパレートフロンティアリーダーボードの普及が挙げられる。例えば、EvalEval連合の「Every Eval Ever」プロジェクトは、統一データ形式を確立し、評価結果の再利用を可能にして重複コストを削減することを目指している。しかし、エージェントやトレーニング・イン・ザ・ループのベンチマックスの根本的な問題は依然として残る。

結論として、AI評価は補助的なタスクから主要なリソース消費源へと変貌し、誰がAI検証に参加できるかを形作っている。コストは技術的な問題であると同時にガバナンスの問題でもある。

歴史的に見ると、評価コスト問題は静的ベンチマークから始まった。2022年にスタンフォードCRFMが公開したHELMベンチマークでは、単一モデルのAPIコストは85ドルから10,926ドルまで幅があり、オープンモデルには540～4,200 GPU時間が必要だった。HELM全体で30のモデルと42のシナリオを評価する総コストは約10万ドルに達した。さらに衝撃的だったのは、PerlitzらのEleutherAI Pythiaチェックポイントの分析である。開発者はモデル開発中に繰り返し評価コストを支払う。Pythiaは8サイズにわたる16モデルそれぞれについて154のチェックポイントをリリースし、合計2,464のチェックポイントになった。これらすべてにLM評価ハーネスを実行すると、評価はトレーニングの乗数になる。Perlitzらは「評価コストはチェックポイント評価時には事前学習を超える可能性がある」と指摘した。小規模モデルでは、評価が開発サイクル全体の支配的な計算項目になる。

しかし、静的ベンチマークの圧縮技術は効果的だった。Perlitzらは、計算量を100～200倍削減してもほぼ同じ順位を維持できることを発見した。Flash-HELMはこの発見を粗密手順に変換した。まず低コストの評価を実行し、トップ候補にのみ高解像度の計算を費やす。tinyBenchmarksは項目応答理論を使用してMMLUを14,000項目から100のアンカー項目に圧縮し、誤差は約2%だった。Anchor Pointsは、GLUE上で87の言語モデル/プロンプトペアをわずか1～30の例で順位付けできることを示した。これらの手法は静的ベンチマークの弱点を利用した。モデルの違いはしばしば少数の項目に集中するため、ランキングは積極的なサブサンプリングに耐えられる。

しかし、ベンチマークが静的予測からエージェントに移行すると、その手法は急激に弱まった。エージェント評価はより混乱している。HALの公開帳簿によると、9モデル、9ベンチマークにわたる21,730のエージェントロールアウトのコストは40,000ドルだった。単一ベンチマーク実行のコストはHALタスク間で4桁の範囲で変動し、一部のベンチマーク内でも3桁の範囲で変動する。その背後にあるのは赤裸々な価格設定の事実だ。Claude Opus 4.1は入力100万トークンあたり15ドル、出力100万トークンあたり75ドルを請求する一方、Gemini 2.0 Flashはそれぞれ0.10ドルと0.40ドルだ。エージェントベンチマークはモデル単独ではなく、モデル、スキャフォールド、トークンバジェットの組み合わせを評価する。スキャフォールドの小さな選択がコストを10倍に増やす可能性がある。さらに悪いことに、高支出が確実に良い結果をもたらすわけではない。

一部の評価は本質的にトレーニングである。The Wellは16の科学機械学習データセットを束ねており、評価プロトコルには経済化の余地がほとんどない。各ベースラインモデルを単一のH100で12時間トレーニングし、各（モデル、データセット）ペアに5つの学習率を試し、4つのアーキテクチャと16のデータセットで繰り返す。ヘッドライングリッドスイープは3,840 H100時間を消費し、約9,600ドルに相当する。単一の新しいアーキテクチャでも約960 H100時間（約2,400ドル）かかる。1つのニューラルオペレーターのトレーニングには1回の12時間H100実行が必要だが、ベンチマーク全体で評価するには80回のトレーニングが必要だ。この非対称性がThe Wellを重要にしている。MLのこの分野では、評価計算がトレーニング計算を約2桁上回り、古い深層学習の考え方を逆転させている。

信頼性のコストは莫大である。上記のコストのほとんどは、統計的検出力が限られた単回実行の測定値しか購入しない。繰り返し実行で信頼性を測定すると、すべてのタイプのベンチマークでコストが増加する。エージェントの信頼性は急激に低下する可能性がある。単回実行で60%だったパフォーマンスが、8回実行の一貫性では25%に低下する。HAL論文は、「何もしない」エージェントが元の構成でτ-benchの航空タスクの38%を通過することを指摘している。HALの内部分析は、総合精度の背後にどれだけの脆弱性が隠れているかを示している。SciCodeとCORE-Benchでは、エージェントはツール呼び出しの失敗なしに実行を完了することはほとんどなかった。AssistantBenchとCORE-Benchでは、環境エラーが約40%の実行で発生した。失敗したタスクでは、エージェントが最終回答で明示的なベンチマーク指示に違反したケースが60%を超えた。

統計的に信頼できるHALスタイルの評価では、各セルを8回再実行することで、総額40,000ドルが約320,000ドルに跳ね上がる。同じ乗数をPaperBenchの1回実行9,500ドルに適用すると、単一エージェントの評価は75,000ドルを超える。The Wellでは、マルチシードプロトコルによりアーキテクチャあたりのコストが約960 H100時間から数千時間に増加する。信頼性はすべてのコストカテゴリの乗数として機能する。

評価コストの上昇はML分野にとって何を意味するのか？第一に、評価コストは今や説明責任の障壁となっている。学術グループ、AI安全研究所、ジャーナリストは、フロンティアエージェントを独立して評価しようとする際、技術的な制約よりも先に予算の制約に直面する。単一のGAIA実行は大学院生の年間旅行予算を超える可能性がある。単一のPaperBench評価（LLM判定子を含む）は約9,500ドルかかる。6モデルの3シード比較は、出版可能な研究として、150,000ドルを超える。第二に、計算格差に評価が含まれるようになった。多くのベンチマークは訓練と評価のコスト関係を逆転させている。7Bモデルをファインチューニングできる研究室でも、この分野が真剣に取り組むベンチマークを負担できるとは限らない。第三に、コスト盲目的なリーダーボードは無駄を奨励する。リーダーボードが生の精度を報告しコストを省略すると、研究者は数字が上がるまで合理的にトークンを投入する。

解決策の一部は評価データの共有である。EvalEval連合のEvery Eval Everプロジェクトは標準化されたフォーマットを提供する。メタデータスキーマ、バリデーター、人気のあるハーネスからの変換器をバンドルしており、既存の評価ログを1ステップで共有フォーマットに変換できる。コミュニティリポジトリはすでに数十の貢献者からの結果をホストしている。もしこの記事で言及された高コストな評価を実行したなら、アーティファクトを統一された透明で検証可能かつ再現可能な方法で預けることが、この分野にとって最もレバレッジの高いコスト削減策である。

結論として、経済は変わった。つい最近までトレーニングは高額で評価は安価だった。5000万ドルから1億ドルでトレーニングされるフロンティアLLMにとって、評価は依然として四捨五入誤差に見えるが、その誤差は今やベンチマーク実行あたり数万ドルかかり、しばしばノイズの多い結果を残す。ニューラルオペレーター、ML研究エージェント、再現ベンチマークでは、比率が逆転している。信頼できる評価が候補モデルのトレーニングよりも高くつく可能性がある。静的評価を安くする方法はすでにわかっているが、エージェント評価には部分的な修正しかなく、トレーニングインザループ評価には一般的な圧縮方法がない。信頼性はさらにコストを追加する。この分野は依然として能力が主要な制約であるかのように語っているが、評価は信頼性がより厳しい制約であることを示している。ガバナンス機関は単回実行精度とpass^k一貫性のギャップを測定したいはずだが、そのギャップを測定するのに最もコストがかかる。評価は今や独自の計算予算、統計手法、障害モードを持っている。その価格は誰が強力なシステムを評価できるかを形作る。評価代金を支払える者がリーダーボードを書くのだ。