ITBench-AA:フロンティアモデルがエンタープライズITエージェントタスクの初のベンチマークで50%未満のスコアに — Artificial AnalysisとIBMによる
Artificial AnalysisとIBMが、エンタープライズITエージェントタスク向けのベンチマークITBench-AAを発表。サイトリライアビリティエンジニアリング(SRE)に焦点を当て、フロンティアモデルはすべて50%未満のスコアで、Claude Opus 4.7が47%でトップ。このベンチマークは、Kubernetesインシデント対応におけるモデルの診断能力を評価する。
記事インテリジェンス
要点
- Claude Opus 4.7が47%でトップ、GPT-5.5が46%、Qwen3.7 Maxが42%。
- すべてのフロンティアモデルが50%未満であり、ITBench-AAは最も飽和度の低いエージェントベンチマークの一つ。
- 長いターン数は必ずしも高精度につながらず、過剰に調査するモデルは誤検出を生じやすい。
- Gemma 4 31BやGLM-5.1などのオープンウェイトモデルは低コストで競争力のある性能を発揮。
重要な理由
このニュースが重要なのは、Claude Opus 4.7が47%でトップ、GPT-5.5が46%、Qwen3.7 Maxが42%ためです。
技術的影響
モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。
Artificial AnalysisとIBMソフトウェアイノベーションラボは、エンタープライズIT環境でのAIエージェントタスクを評価する初のベンチマーク「ITBench-AA」を発表しました。このベンチマークは、サイトリライアビリティエンジニアリング(SRE)タスクから始まり、モデルがKubernetesクラスタ内の障害を運用エンジニアのように診断する能力をテストします。すべてのフロンティアモデルが初回テストで50%未満のスコアにとどまり、エンタープライズレベルのAIエージェントタスクの難しさが浮き彫りになりました。
テストでは、Claude Opus 4.7(適応推論、最大努力モード)が47%でトップ、GPT-5.5(xhigh)が46%、Qwen3.7 Maxが42%で続きました。すべてのモデルが50%を下回ったことで、ITBench-AA SREは現在最も飽和度の低いエージェントベンチマークの一つとなっています。比較として、フロンティアモデルはTerminal-Benchなどの他のベンチマークでははるかに高いスコアを達成しています。
興味深い発見として、タスクあたりのターン数(操作ステップ数)と精度の間には正の相関が見られませんでした。GPT-5.5(xhigh)は平均31ターンで46%を達成したのに対し、Gemini 3.1 Pro Previewは平均83ターンで30%にとどまりました。過剰に調査する傾向のあるモデルは、上流の障害注入メカニズムや同時発生症状を誤って根本原因と判断し、誤検出を生じやすいことがわかりました。
オープンウェイトモデルはコスト効率の面で優れています。GLM-5.1(推論)は40%のスコアでオープンモデルをリードし、Gemini 3.5 Flash(高)と同等の性能をより低コスト(タスクあたり1.23ドル対1.70ドル)で実現しました。DeepSeek V4 Pro(推論、最大努力)は38%、Gemma 4 31B(推論)は37%で、Gemini 3.1 Pro Previewの30%を上回りました。Gemma 4 31Bはタスクあたりわずか0.14ドルで、より高価なGemini 3.1 Pro Previewを性能で凌駕しています。
ITBench-AA SREは合計59タスク(公開40、新規19)で構成されます。各タスクは、アラート、イベント、トレース、メトリクス、ログ、アプリケーショントポロジを含むKubernetes障害スナップショットを提供します。モデルは、障害の原因となった最小限の独立した根本原因Kubernetesエンティティを特定する必要があります。障害の種類は、リソースクォータの枯渇、ロールアウト失敗、コネクションプールの枯渇、ネットワークパーティションなど、典型的なSRE障害モードをカバーしています。
評価方法では、固定のエージェントフレームワーク「Stirrup」を使用し、モデルはシェルコマンドを介してサンドボックス化されたファイルシステムにアクセスします。タスクあたり最大100ターン、3回の繰り返しが行われます。モデルが根本原因エンティティのリストを提出すると、再呼び出しゲート付き精度(Recall-Gated Precision)でスコアリングされます。真の根本原因を1つでも見逃した場合はその回のスコアが0となり、すべてを特定した場合は精度(真陽性/(真陽性+偽陽性))がスコアとなります。最終スコアは59タスク×3回の平均です。
今後、ITBench-AAは財務運用(FinOps)や最高情報セキュリティ責任者(CISO)タスクにも拡大される予定で、エンタープライズAIエージェント評価のより包括的な視点を提供します。詳細については、arXiv論文、GitHub、Hugging Faceデータセットリポジトリを参照してください。