谷歌的AI智能体真的用916美元构建了一个操作系统吗?
谷歌声称其AI智能体团队仅用单条提示和约900美元就构建了一个操作系统,但本文分析了该说法的多处疑点:提示实际上长达数千行、可能存在过度拟合、未公开关键信息等。文章强调了独立评估的重要性,并认为此类公开世界评估需要新的方法论标准。
文章情报
要点
- 谷歌宣称AI智能体以916美元成本构建操作系统,但实际提示词达数千行
- 存在过度拟合、复制现有代码等未被澄清的问题
- 谷歌未发布完整提示词、代码或日志,无法独立验证
- 此类评估虽不严谨,但为公开世界评估提供了方向,需引入学术独立评估
为什么重要
这条新闻值得关注,因为谷歌宣称AI智能体以916美元成本构建操作系统,但实际提示词达数千行。
技术影响
可能影响模型选型、推理成本、产品能力和评测基准。
本周早些时候,在谷歌的开发者大会上,该公司推出了最新模型Gemini 3.5 Flash以及新代理应用Antigravity 2.0。为了展示这一新代理设置的能力,谷歌声称一个代理团队已经构建了一个完整的操作系统。据称,该工作仅需单个提示,API费用仅约900美元,由几十个子代理协同完成。
这是否意味着复杂软件现在可以由AI廉价构建?实际上并非如此。
“单条提示”的说法具有误导性。博客文章称操作系统是通过单条提示构建的,但文章中途透露,该提示“最终长达数千行”。生成该提示需要多少次尝试?对代理的指令有多具体?没有这些关键细节,很难知道秘诀是更好的模型还是在提示上投入了更多精力。此外,运行是在一个具有专门角色、向子代理委派任务以及检测和防止作弊的代理的支架(scaffold)上进行的。在发布文章中,谷歌将支架视为产品功能。但我们不知道支架是否过度拟合于从头构建操作系统的任务,或者它是否能在其他复杂软件工程任务上表现同样出色。
谷歌的文章没有明确说明哪些算作人工干预。文章提到最终运行开发操作系统时“不需要人类的额外指导或修正”,但并未定义该标准。文章描述了用于杀死和重启卡住代理的基础设施。文章提到了一次早期运行中代理似乎作弊,之后团队增加了反作弊措施并重新运行任务。但它没有将试运行作为方法论的一部分报告,也没有明确说明是否有任何代理升级到人类、最终运行是否需要任何手动重启、批准或修复,或者代理成功所需的重试次数。
文章没有报告任何分析代理是从头编写代码还是从互联网复制现有代码的尝试。值得称赞的是,博客文章指出玩具操作系统是常见的本科课程项目,公开实现很容易找到。文章本身提出了代理可能只是复述信息而不是从头构建操作系统的担忧,但并未解决这一担忧——没有进行相似性分析或日志分析来检查代理是否复制了现有代码。即使没有直接复制,由于训练数据中记忆的模式,编写操作系统对代理来说可能相对容易,因此这并不能说明代理创建新颖软件的能力。
谷歌尚未发布长篇提示、代理编写的代码或运行日志,这使得无法独立评估这些说法。发布源代码或代理日志可以让独立研究人员评估工件的质量,并回答诸如代理是否复制现有代码等问题。博客文章仅包括一段短视频,记录了开发过程的快照和实验的整体叙述。
另一方面,博客文章确实报告了构建操作系统的确切美元金额(916.92美元),以及总令牌预算(总计26亿令牌)。这些数字提供了有用的背景,我们对此表示赞赏。我们之前调查的许多评估根本没有披露成本,这使得它们的标题声明难以与其他评估进行比较。
尽管如此,谷歌的博客文章本质上是一份新闻稿。我们认识到期望它具有科学严谨性是不现实的。像这样的评估——一个长期现实世界的任务,在单次运行中评估,实验者叙述代理所做的——已经变得普遍。由于其中许多是由AI公司进行的,很容易将整个类型视为夸大其词。
但那样做是错误的。我们将这种新兴范式称为开放世界评估,并在最近的一篇论文(以及随附的博客文章)中认识到这一趋势。关键在于,我们认为开放世界评估需要一套新的方法论规范。如果做得正确,它们可以提供基准评估无法提供的宝贵视角。
谷歌的实验确实增加了越来越多的证据,表明代理或代理团队可以在非常长的时间内自主或接近自主地处理某些类型的任务,取得进展而不会陷入困境或混淆。正如我们在论文中论证的,基准评估对于这类任务实际上是不可能的,原因包括成本。因此,现在是来自学术界、非营利组织和政府的独立评估者介入的时候了,为开放世界评估提供AI供应商自己的声明中不太可能找到的严谨性和可信度。