AI News HubLIVE
站内改写

Claudeの合格率4%未満——SaaS-BenchがComputer-Useの「全自動オフィス」幻想を打ち砕く

UniPat AIが公開したSaaS-Benchによる評価で、Claudeなどの主要大規模モデルの完全合格率は最高でも3.8%にとどまり、AIによる全自動オフィスはまだ遠い現実であることが明らかになった。

記事インテリジェンス

エンジニア上級

要点

  • SaaS-Bench評価では、最強モデルClaude Opus 4.7でも完全合格率はわずか3.8%。
  • タスクの93.4%が複数のアプリにまたがり、テキストタスクの97.3%が100ステップ超。
  • 4つの構造的失敗モード:長タスクでの精度低下、単一ミスからの連鎖エラー、検証ループ欠如、実行結果の不安定性。
  • 現在のエージェントパラダイムは長期的タスクで根本的限界があり、ソフトウェアの再設計が必要かもしれない。

重要な理由

このニュースが重要なのは、SaaS-Bench評価では、最強モデルClaude Opus 4.7でも完全合格率はわずか3.8%ためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

UniPat AIは、現実のオフィス業務におけるAIエージェントの性能を厳格に評価するベンチマーク「SaaS-Bench」を発表した。結果は厳しいものとなった。最も優れたモデルであるClaude Opus 4.7でさえ、106タスク中の完全合格率はわずか3.8%だった。Kimi K2.5やGemini 3.1 Proは0%であった。このベンチマークは、「コンピュータユース」エージェントに関する誇大広告と、複雑なマルチステップワークフローを完了する実際の能力との間に大きなギャップがあることを明らかにしている。

SaaS-Benchは、23のオープンソースSaaSアプリケーションをDocker経由でデプロイし、実際のフロントエンド・バックエンドロジック、データベース状態、ビジネス制約を完全に保持した環境をシミュレートする。106のタスクはソフトウェア開発、財務、医療、チームコラボレーションなど6分野をカバーする。93.4%のタスクが少なくとも2つのアプリケーションにまたがり、テキストベースタスクの97.3%が100ステップ以上(一部は300ステップ超)である。これは、シミュレーション環境と短いタスクを使用する従来のベンチマークとは大きく異なる。

厳格な評価には2つの指標が使用される:チェックポイントスコア(部分点)と解決スコア(すべてのチェックポイントを満たした場合のみ1)。Claude Opus 4.7はチェックポイントスコア43.9%に対し、解決スコアは3.8%だった。これはエージェントが途中まで進めても、ワークフロー全体を完了できないことを示す。

SaaS-Benchは4つの構造的失敗モードを特定した。第一に、タスクが長くなるにつれて精度が低下する。第二に、初期の単一エラーが下流で連鎖的に失敗を引き起こす。第三に、エージェントは作業の検証に失敗し、システム状態が異なるにもかかわらず成功したと誤認する。第四に、実行結果のばらつきが大きく、同じタスクでもスコアが0.00から0.68まで変動する。

これらの発見は、現在のエージェントが永続状態の推論、検証ループ、エラー回復能力を欠いていることを示唆する。著者らは、これらは単なる工学上の問題ではなく、現在のエージェントパラダイムの根本的限界であると主張する。さらに、人間向けに設計されたソフトウェアは、自動化プロセスに最適化されるようAIエージェント向けに再設計される必要があると予測する。詳細はUniPat AIのブログ、GitHub、arXivで公開されている。