CEO-Bench:エージェントは長期的なゲームをプレイできるか?
CEO-Benchは、スタートアップを500日間運営するシミュレーションを通じて、言語モデルエージェントの長期的で不確実なタスクにおける能力を評価する新しいベンチマークです。最先端モデル(Claude Opus 4.8やGPT-5.5)でも、初期資金100万ドルを辛うじて上回る程度で、安定した利益を上げるには至りません。
人工知能の分野では、言語モデルエージェントはソフトウェアエンジニアリングやカスタマーサービスといった短期的な孤立タスクにおいて熟達した実行力を示しています。しかし、現実世界の課題は、不確実性の中での長期的なナビゲーション、ノイズの多い環境からの情報獲得、変化する世界への適応、そして複数の部分をまとめて調整するといった、洗練されたスキルの組み合わせを必要とします。これらの能力はエージェントでほとんどテストされていません。
このギャップを埋めるため、複数の大学の研究者らはCEO-Benchを提案しました。これは、500日間にわたってスタートアップを運営するという現実的なタスクをシミュレートすることで、これらの能力を総合的に評価する新しいベンチマークです。エージェントはプログラム可能なPythonインターフェースを通じて、価格設定、マーケティング、予算管理など、架空の会社の多くの側面を管理し、人間のCEOと同じ環境と課題に直面します。成功するためには、ノイズの多い相互接続されたビジネスデータベースを分析し、シグナルを適切な戦略に変換し、プログラミングによって多くの意思決定を調整する必要があります。
最も強力なエージェントは、顧客コホートをシミュレートして将来のキャッシュフローを予測し、交渉履歴をマイニングして隠れた顧客の好みを明らかにするための洗練されたコードを作成します。それでも、最先端のモデルのほとんどはこの環境で苦戦しています。Claude Opus 4.8とGPT-5.5だけが、500日後に初期資金の100万ドルを辛うじて上回る結果を残しましたが、どちらも一貫して利益を上げることはできませんでした。
CEO-Benchは、持続的で適応的な進歩を推進するために必要な知能を測定するための第一歩です。このベンチマークは、現在の言語モデルの限界を浮き彫りにするだけでなく、将来のエージェント開発の方向性を示しています。研究が進むにつれて、CEO-Benchはエージェントの進歩を測定するための中心的なツールとなり、よりインテリジェントで適応性の高いAIシステムの誕生を促進するでしょう。