AA-Briefcase:フロンティア知識作業評価ベンチマーク
AA-BriefcaseはArtificial Analysisが開発した新しいベンチマークで、現実的な複数週の知識作業プロジェクトにおけるAIモデルの能力をテストします。ルーブリックとペアワイズ評価を組み合わせ、タスク成功、分析品質、プレゼンテーション品質を評価します。Claude Fable 5がリードするが高コストで、オープンウェイトモデルのGLM-5.2はコストパフォーマンスに優れています。
AA-BriefcaseはArtificial Analysisによって発表された新しいベンチマークで、現実的な知識作業におけるAIモデルのエージェント能力を評価します。このベンチマークは複数週にわたる知識作業プロジェクトをシミュレートし、各プロジェクトには多くの相互に関連するタスクと数千の入力ソースファイルが含まれています。AA-Briefcaseはルーブリック評価とペアワイズ評価を組み合わせ、タスクの成功、分析品質、プレゼンテーション品質を評価し、知識作業における全体的なエージェント能力を包括的に測定します。
最新のリーダーボードでは、Claude Fable 5がAA-Briefcase Elo複合指標で最高スコアを獲得しました。この指標はルーブリック合格率、分析品質Elo、プレゼンテーションEloを統合したものです。次いでClaude Opus 4.8(max)とGLM-5.2(max)が続き、GPT-5.5(xhigh)が4位です。特にGLM-5.2(max)はオープンウェイトモデルの中で明らかなリーダーであり、エージェント能力とコストのバランスに優れています。
AA-Briefcaseの設計は現実世界の複雑さを重視しています。プロジェクトシナリオは現実的で長期にわたり、タスクは週ごとに構築され、共有された組織コンテキストを活用し、財務モデル、役員プレゼンテーション、デザインモックアップなどの企業レベルの成果物を要求します。ベンチマークには約2000のソースファイルが含まれ、3500以上の電子メールと25000のSlackメッセージが含まれます。これらのソースは断片的で矛盾に富んでおり、モデルがあいまいな情報を処理する能力をテストします。評価の完全性を保つため、91のタスクすべてが非公開です。
コスト面では、モデル間でタスクあたりのコストが800倍以上異なります。Claude Fable 5は最高性能を示すものの、1タスクあたり平均31ドル以上のコストがかかる一方、DeepSeek V4 Flash(Max)は約0.04ドルです。コストパフォーマンスに優れるのはGLM-5.2(max)やDeepSeek V4 Pro(max)などのオープンウェイトモデルで、GLM-5.2(max)はClaude Opus 4.8(max)の4分の1未満のコストで約90 Elo劣るにとどまります。
AA-Briefcaseは重要な洞察も明らかにしています。客観的なルーブリックチェックによると、トップモデルでもすべてのチェックを通過したタスクはわずか3%です。91タスク中31タスクでは、いずれのモデルも50%を超える得点を獲得できませんでした。モデルの能力が低いほどタスク実行の失敗が多く、能力が高いモデルはソースファイルに隠された要件を見落とす傾向があります。また、タスクの難易度は必要な入力ファイル数に比例して上昇し、トップモデルはその低下が小さいです。プレゼンテーション品質では、最高スコアのモデルは提出前に複数回の視覚検査を行うのに対し、低スコアのモデルはほとんど検査を行いません。
AA-Briefcaseは複雑な知識作業におけるモデルの実際の能力を測定する包括的な視点を提供し、その結果はモデル選択、コスト最適化、能力向上に重要な指針を与えます。