Agent Arena: 実世界におけるエージェントの因果評価
Agent Arenaは、実世界のユーザーインタラクションデータに基づく新しいエージェント評価フレームワークで、因果追跡手法を用いて解釈可能なリーダーボードを生成します。本稿では、その方法論、5つの主要シグナル(確認成功、賞賛と苦情、操縦性、Bash復旧、ツール幻覚)、大量の実使用データ(タスク分布、ツール呼び出し、コード行数など)、およびいくつかの高複雑性タスクの例を詳述しています。
AIエージェントはますます実際の作業を担うようになっています。チャットからターミナル、OpenClawに至るまで、ユーザーは至る所で、モデルと多くのサブコンポーネントやツールからなるハーネスで構成される複雑なエージェントと対話しています。その結果、タスクの分布は大幅に拡大しました。これにより、エージェントの評価はますます困難になっています。なぜなら、タスクのカバレッジと複雑性が同時に増大しているからです。私たちは、利用状況と能力に合わせて拡張可能なエージェント評価を望んでいます。
本日、Agent Arenaリーダーボードを公開します。Arenaは常に実世界での評価に焦点を当ててきました。そのために、Agent Arenaは、人々がarena.ai/agentでAgent Modeを使用して実際の仕事(ソフトウェアエンジニアリング、財務分析など)を行っている際の、何百万もの野外インタラクションを収集・分析しています。私たちのプラットフォーム上で動作するこれらのエージェントの観察から、最初のAgent Arenaリーダーボードを導き出しました。
Agent Arenaリーダーボードで使用される評価方法は、以前のArenaとは異なります。ペアワイズ投票ではなく、因果追跡と呼ばれる方法を使用してランキングを計算します。因果追跡は、エージェントをマルチコンポーネントシステムとして扱い、各コンポーネントの選択を可能な処理と見なします。個々のポイント単位の軌跡を観察し、タスク成功率、口頭フィードバック、ツールエラー復旧、ツール幻覚などのシグナルを測定します。その後、コンポーネントの選択をランダム化することで、複数介入のランダム化比較試験を作成し、測定結果を集約して因果的な処理効果を推定します。上の図では、これらの効果を「正味の改善」と呼んでいます。因果フレームワークは、コンポーネントの選択によるエージェントのパフォーマンス向上を表す解釈可能なランキングを生成します。これにより、メインのオーケストレータモデル、サブエージェント、画像生成モデル、ハーネスのさまざまな要素の貢献を切り離し、複数のシグナルを1つの一貫したリーダーボードに統合できます。
この最初のリーダーボードは、オーケストレータモデル(ツールを呼び出す主要な大規模言語モデル)の因果評価の結果です。エージェントハーネスの他の側面のランキングは近日公開予定です。方法論の詳細は、以下の統計方法セクションに含まれています。
各Agent Arenaセッションには、豊富なフィードバックのストリームが含まれています。ユーザーは自然言語でエージェントと反復し、ターンごとに承認、不満、または明確化を表現します。エージェントが生成したアーティファクトをダウンロードするかどうかを決定します。明示的な承認/非承認ボタンをクリックします。エージェントが脱線したときにはインライン修正を発行します。そしてエージェント側では、継続的にフィードバックを返す環境と対話しています(シェル終了コード、ツールエラー、呼び出そうとしたツールの欠如など)。Agent Modeにより、これらすべてのシグナル(明示的なユーザーフィードバック、暗黙的なユーザーフィードバック、エージェント環境からのフィードバック)を抽出できます。各シグナルのセッションごとの結果を計算した後、因果手法でリーダーボードに変換し、それらを主要リーダーボードに集約します。本日は最初の5つのシグナルを紹介し、近い将来さらに多くのシグナルを測定する予定です。
主要リーダーボードは以下のシグナルを集約しています:
確認成功 — ユーザーがArena UIを使用してタスクを成功または失敗としてマークします。Arenaは各ターンに承認ボタンと非承認ボタンを提供し、特定のタスクの軌跡の最終的な承認または非承認を使用して結果を決定します(セッション内に複数のタスクが存在する場合があります)。
賞賛と苦情 — ユーザーがエージェントの出力を賞賛または苦情として表現します。各タスクについて、明示的な口頭賞賛(「素晴らしい」「これこそ私が必要としていたもの」)または明示的な口頭苦情(「これは壊れている」「完全に誤解している」)を含むメッセージを識別します。賞賛が苦情を上回った場合、タスクは成功とマークされます。
操縦性 — エージェントがユーザーの修正を実行します。ユーザーがインライン修正(「いいえ、代わりにXをやって」「ファイルを読み間違えている」)を発行した場合、エージェントはそれを修正しようと試みるべきです。ユーザーが修正を受け入れれば、修正成功とマークします。拒否または放棄した場合は、不成功とマークします。実際の作業では、ミスは避けられません。このシグナルは、これらのエラーが迅速に解決されるかどうかを捉えます。
Bash復旧 — Bashエラーから回復するために必要なターン数。エージェントがモデルの障害(環境の問題ではない)によりエラーとなるBashコマンドを発行した場合、回復クロックが開始されます。次のエラーのないコマンドまでの後続のBash呼び出しをカウントします。エージェントが諦めた場合、追加のペナルティが課されます。
ツール幻覚 — エージェントが存在しないツールを参照します。これにより、架空のツール名、ジャンク名を生成する不正な構文、ツールフィールドへの思考連鎖トークンの漏洩がペナルティされます。エージェントが存在しないツールを呼び出した場合、タスクは失敗とマークされます。
この5つのシグナルは出発点に過ぎません。さらにシグナルを追加して評価を充実させ、古くなったものを廃止し、トレースマイニングの改善に伴って修正する予定です。
最後に、リーダーボードのシグナルではありませんが、展開後のエージェントの実現コストを計算してパレート最適性を評価することもできます。セッションの正確なコストを直接計算します。一部のモデルは、表面上の価格設定よりも実際には高価であることがわかります。これは、モデルの動作(ターンあたりのステップ数の増加など)や誘発されたユーザー行動(満足に達するまでのターン数の増加など)によるものです。
次に、リーダーボードを支えるデータの詳細を見ていきます。Agent Arenaは、実際のユーザーがモデルに作業を依頼するライブストリームです。コードの作成、壊れたプロジェクトのデバッグ、ウェブ全体の調査、ドキュメントの作成、フロントエンドの構築、ファイルの分析、マルチステップタスクの反復などが含まれます。
最近の7日間のスライスでは、Arenaは160,480件のAgent Modeタスクを確認しました(セッション内に複数のタスクが存在する可能性があることに注意)。最大のカテゴリはコード作成(17.5%)、調査とルックアップ(10.8%)、計画とブレインストーミング(10.6%)、マルチモーダル画像/ビデオ作業(10.2%)であり、次いでドキュメント作成(9.1%)、コードデバッグ(8.9%)でした。コード作成だけで約28,000タスク、コードデバッグが約14,000タスク、調査とルックアップが約17,000タスクでした。
128,244セッションのうち、75.6%が少なくとも1つのツールを使用し、41.1%がBashを実行し、27.1%がウェブ検索を実行しました。その週、Agent Modeは200万の構造化ツール呼び出しを発行し、そのうち約93.6万のBash呼び出し、約55万のファイル書き込み、約27.5万のウェブ検索が含まれていました。
成功したwrite_file呼び出しを追跡することで、Agent Modeは過去1週間で4030万行のコードを作成しました。これはコード作成セッションあたり約1000行に相当します。
過去7日間で、セッションは平均約16.5の構造化ツール呼び出しを実行し、高ツール呼び出しセッションは独自のコホートを形成するほど一般的でした。ループフィルタリング後の3400以上のセッションが、1週間で非常に長いツールチェーンを実行しました。これらのセッションは主に実際の作業であり、53.2%がコーディングまたはリポジトリデバッグ、39.0%がアーティファクト/ファイル作成、残りがウェブ合成、ターミナルワークフロー、データ分析に及びました。
最後に、最近のセッションの約32%が最終ターンで少なくとも128kの入力トークンを持ち、22%が少なくとも256k、8%が少なくとも1Mを持っていました。
最も重い実際のセッションのサンプルでは、次のものが見られました:ライブスポーツTVスケジュールサイト、自律型水中ビークルオートパイロット、セルフホスト型映画ウォッチリストアプリ、金融研究RAGパイプライン、ライブ学習追跡プラットフォームなど。多くのセッションは、ユーザーが完成したワークスペースをダウンロードして終了しました。