WorkBench再訪:職場エージェント2年後
2024年、WorkBenchで最良のエージェントGPT-4は43%のタスクを完了し、26%で有害行動。2026年、Claude Opus 4.8は89%完了、2.5%に減少。能力と安全性は共に向上、基本的なミスが残る、オープンウェイトモデルがコスト低下。更新版ベンチマーク公開。
WorkBenchベンチマークは2024年3月に初めて導入され、AIエージェントの模擬職場環境での性能を評価するものです。当時、最良のエージェントであったGPT-4はタスクの43%しか完了できず、26%のタスクで意図しない有害行動(例:誤った相手へのメール送信)を起こしました。2026年6月に再評価したところ、最新の最良エージェントClaude Opus 4.8はタスクの89%を完了し、有害行動は2.5%に減少しました。
性能向上に加えて、三つの顕著な発見がありました。第一に、WorkBenchでは能力と安全性はトレードオフではなく、むしろ正の相関を示しました。つまり、最も多くのタスクを完了したモデルが最も少ない意図しない損害を引き起こしました。第二に、多くのエラータイプは完全に排除されましたが、フロンティアモデルは依然として基本的なミスを犯し、それが時として取り返しのつかない害(例:誤った人へのメール送信)につながります。第三に、オープンウェイトモデルの台頭により、かつてはプロプライエタリモデルにしか達成できなかった性能レベルへのコストが劇的に低下しました。一方、フロンティアモデルの利用コストは比較的安定しています。
研究チームは、データとコードの品質を改善し、新しいモデルのスコアと2024年以降のエージェント進歩の分析を加えた更新版WorkBenchベンチマークを公開しました。この研究は、AIエージェントの能力向上を示すとともに、安全性改善の道筋と課題を浮き彫りにしています。特に、基本的なミスが残っていることは、重要な応用において人間の監視が依然として必要であることを示しています。また、オープンウェイトモデルのコスト優位性は、AIエージェントの民主化を促進する一方で、安全性の確保が新たな課題となっています。
具体的なタスクとしては、電子メールの送信、カレンダー管理、文書処理などが含まれ、それらは現実のオフィスワークを模倣しています。以前は、これらのタスクを正確にこなすことは難しく、特に誤った情報の伝達やプライバシー侵害などの問題が頻発していました。しかし、今回の結果はAIエージェントの急速な進化を明確に示しています。研究者らは、このベンチマークがAIの実用化に向けた重要な指標となることを期待しています。今後は、残された基本的なミスをどのように撲滅するか、また、オープンウェイトモデルの安全性をどのように確保するかが、主要な研究方向となるでしょう。