GoogleのAIエージェントは本当に916ドルでオペレーティングシステムを構築したのか?
GoogleはAIエージェントチームがたった1つのプロンプトと約900ドルのAPI費用でOSを構築したと主張したが、本稿ではその主張の複数の問題点を分析:プロンプトは実際には数千行に及び、過学習の可能性、重要な詳細の欠如など。独立した評価の重要性を強調し、この種の「オープンワールド評価」には新たな方法論的規範が必要であると論じる。
記事インテリジェンス
要点
- GoogleはAIエージェントが916ドルでOSを構築したと主張するが、実際のプロンプトは数千行
- 過学習やコードのコピーなど、未解決の問題がある
- プロンプト、コード、ログが公開されておらず、独立した検証が不可能
- このような評価は厳密ではないが、新たな評価基準と独立した評価の必要性を示している
重要な理由
このニュースが重要なのは、GoogleはAIエージェントが916ドルでOSを構築したと主張するが、実際のプロンプトは数千行ためです。
技術的影響
モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。
今週初めのGoogleの開発者会議で、同社は最新モデル「Gemini 3.5 Flash」と新しいエージェントアプリ「Antigravity 2.0」を発表しました。この新しいエージェント設定の能力を示すため、Googleはエージェントのチームがオペレーティングシステム全体を構築したと主張しました。その取り組みはわずか1つのプロンプト、約900ドルのAPI費用、数十のサブエージェントの協力で行われたとされています。
しかし、これは複雑なソフトウェアがAIによって安価に構築できることを意味するのでしょうか?そうではありません。
「1つのプロンプト」という主張は誤解を招きます。ブログ記事では、オペレーティングシステムは1つのプロンプトから構築されたと述べていますが、記事の途中でそのプロンプトは「最終的に数千行に及んだ」と開示されています。プロンプトを生成するのに何回の試行が必要だったのか?エージェントへの指示はどの程度具体的だったのか?これらの重要な詳細がなければ、成功の秘訣がより優れたモデルなのか、プロンプトへのより多くの努力なのかを判断するのは困難です。さらに、実行は専門的な役割、サブエージェントへの委任、不正を検出して防止するエージェントを備えたスキャフォールド上で行われました。発表記事では、Googleはスキャフォールドを製品機能と見なしています。しかし、スキャフォールドがゼロからのオペレーティングシステム構築タスクに過適合しているのか、他の複雑なソフトウェアエンジニアリングタスクでも同様に機能するのかはわかりません。
Googleの記事では、何が人間の介入と見なされるかについて明確にされていません。最終的な実行では「人間からの追加のガイダンスや修正は不要だった」と述べていますが、その基準は定義されていません。スタックしたエージェントを強制終了して再起動するインフラストラクチャについて説明されています。また、以前の実行でエージェントが不正を働いたように見え、その後チームが不正対策を追加してタスクを再実行したことに言及しています。しかし、試行を方法論の一部として報告しておらず、エージェントが人間にエスカレーションしたかどうか、最終実行に手動再起動、承認、修正が必要だったかどうか、エージェントが成功するまでに何回の再試行が必要だったかを明確に述べていません。
記事では、エージェントがコードをゼロから書いたのか、インターネットから既存のコードをコピーしたのかを分析する試みは報告されていません。Googleの功績として、ブログ記事はおもちゃのオペレーティングシステムが一般的な学部課程のプロジェクトであり、公開実装が簡単に見つかることを指摘しています。記事自体も、エージェントがゼロから構築するのではなく情報を再生した可能性があるという懸念を提起していますが、この懸念に対処していません。類似性分析やログ分析は行われず、エージェントが既存のコードをコピーしたかどうかを確認していません。直接コピーがなかったとしても、訓練データに記憶されたパターンのため、オペレーティングシステムを書くことはエージェントにとって比較的容易かもしれません。そのため、これはエージェントの新しいソフトウェアを作成する能力について多くを語りません。
Googleは長いプロンプト、エージェントが書いたコード、または実行ログを公開しておらず、これにより主張を独立して評価することは不可能です。ソースコードやエージェントログの公開により、独立した研究者が成果物の品質を評価し、エージェントが既存のコードをコピーしていたかどうかなどの質問に答えることができたはずです。ブログ記事には、開発の進行状況のスナップショットと実験の全体的なナラティブを記録した短い動画のみが含まれています。
一方、ブログ記事はオペレーティングシステムの構築にかかった正確な金額(916.92ドル)と総トークン予算(合計26億トークン)を報告しています。これらの数字は有用な文脈を提供しており、Googleを称賛したいと思います。以前調査した多くの評価はコストをまったく開示しておらず、それらの見出しの主張を他の評価と比較するのが困難でした。
それでも、Googleのブログ記事は実質的にプレスリリースです。科学的厳密性を期待するのは非現実的です。この種の評価——長期の現実世界タスクを単一の実行で評価し、実験者がエージェントの行動をナレーションする——は一般的になっています。その多くがAI企業によって行われているため、ジャンル全体を誇大広告として退けるのは簡単です。
しかし、それは誤りです。私たちはこの新たなパラダイムを「オープンワールド評価」と呼び、最近の論文(および付随するブログ記事)でこの傾向を認識しています。重要なのは、オープンワールド評価には新たな方法論的規範が必要であると主張していることです。適切に行われれば、ベンチマークベースの評価では提供できない貴重な視点を提供できます。
Googleの実験は、エージェントやエージェントチームが非常に長期間にわたって自律的または準自律的に特定の種類のタスクに取り組み、行き詰まったり混乱したりせずに進捗を遂げることができるという証拠を増やしています。私たちの論文で論じているように、この種のタスクにはコストなどの多くの理由からベンチマーク評価は事実上不可能です。したがって、学術界、非営利団体、政府からの独立した評価者が介入し、AIベンダー自身の主張には見られないような厳密性と信頼性をオープンワールド評価に提供する時が来ています。