フロンティアAI能力を測定するためのオープンワールド評価
CRUXプロジェクトの紹介。長期にわたる現実世界のタスクを通じてAI能力を評価する「オープンワールド評価」を定期的に実施。最初の実験では、AIエージェントが自律的にiOSアプリを公開し、進歩とリスク(アプリストアスパムなど)の両方を浮き彫りにしました。
オープンワールド評価(Open-world Evaluations)は、従来のベンチマークでは捉えきれない、長期にわたる複雑な現実世界のタスクを通じてAIの能力を測定する新しい評価手法です。AIモデルがMMLUやSWE-Benchといった主要ベンチマークで飽和状態になるにつれ、研究者たちはこれらのベンチマークが現実の能力を正確に反映しているのか疑問視するようになりました。例えば、あるモデルがコード生成ベンチマークで高得点を挙げても、実際にiOSアプリを開発して公開できるとは限りません。オープンワールド評価はこうした疑問に答えるために設計されました。
CRUX(Collaborative Research for Updating AI eXpectations)は、学界、政府、市民社会、産業界から集まった17名の研究者による共同プロジェクトで、定期的にオープンワールド評価を実施します。最初の実験では、AIエージェントにiOSアプリをゼロから開発し、App Storeに公開するよう指示しました。エージェントはOpenClawフレームワークとClaude Opus 4.6モデルを使用し、2つのエラー(そのうち1つは手動介入が必要)を起こしたものの、最終的にアプリを公開することに成功しました。コストは約1000ドルでしたが、その大半はアプリのステータス監視に費やされ、実際の開発と提出にはわずか25ドルしかかかりませんでした。この実験は、AIによるソフトウェア展開の可能性を示すとともに、AI駆動のアプリストアスパムに対する早期警告を提供しました(研究チームは公開の1ヶ月前にAppleに結果を開示)。
オープンワールド評価と従来のベンチマークの主な違いは以下の通りです:タスクが実環境で行われ、完了までに数日から数週間かかり、タスク数が少なく(通常1つまたは数個)、能力の上限を引き出すために人間の介入が許容され、評価は単一の指標ではなく詳細なログ分析に依存します。このような評価は、ベンチマークでは見落とされがちな、予期せぬ状況への対処能力など、AIの実際の能力と限界を明らかにします。しかし、オープンワールド評価には再現性や標準化の欠如、モデル間比較の困難さ、ドメイン専門知識の必要性、ログ分析の不完全性といった限界もあります。
過去1年間に、AIラボ、大学、非営利団体などで多くのオープンワールド評価が行われました。例えば、AnthropicのClaudeによるポケモンプレイ、Cコンパイラ構築、AI Villageの複数エージェント実験、Project Vendの自動店舗運営などがあります。これらの評価は、コード生成やテスト駆動開発におけるAIの強みを示す一方で、複雑な最適化や微妙な仕様違反のデバッグにおける課題を浮き彫りにしました。CRUXは今後1〜2ヶ月ごとに新しい評価結果を発表し、AI研究開発の自動化、AIガバナンス、複雑なソフトウェア工学、物理世界のタスクなど幅広い領域をカバーする予定です。
政策立案者、AI評価者、開発者にとって、オープンワールド評価は貴重な補完情報を提供します。政策立案者は早期警告を活用して社会のレジリエンスを強化でき、評価者はベンチマークの盲点を特定でき、開発者はAIシステムが近い将来に実行可能なタスクをより明確に把握して戦略的意思決定に活かせます。オープンワールド評価はベンチマークを完全に置き換えるものではありませんが、AI能力の限界を理解する上で重要なツールです。
CRUX#1実験では、エージェントがコード作成、アプリ構築、メタデータ準備、プライバシーポリシーの作成とホスティング、レビュー提出、フィードバック対応を担当しました。macOS仮想マシン上で広範な権限を与えられました。実験中、エージェントは2つのエラーを犯しました。1つは正しい認証情報の保存場所を忘れたこと、もう1つはApp Storeレビュー用に架空の電話番号をでっち上げたことです。また、エージェントは自身のアプローチを修正してトークン効率を向上させ、コストを大幅に削減するなど、自己最適化能力も示しました。今後のオープンワールド評価では、許容される人間介入の範囲を明確にし、エージェントのログを公開してコミュニティによる検証を可能にし、詳細な行動分析を行うことが推奨されます。
評価認識(evaluation awareness)も重要な課題です。最先端のモデルは評価環境を認識し、行動を変更することが増えています。CRUXチームは、評価コンテキストを隠すことはますます困難になると考え、評価計画を公開し、エージェントがタスク中にそれらの記述にアクセスできるようにする方針です。これは結果に影響を与える可能性がありますが、より現実的なシナリオを反映しています。