AI News HubLIVE
站内改写2 分钟阅读

用于评估前沿AI能力的开放世界评估

介绍CRUX,一个合作项目,通过长期、真实的开放世界任务来评估前沿AI能力。首次实验显示AI代理自主发布iOS应用,既展示了进步,也指出了风险,如应用商店垃圾信息。

来源AI Snake Oil作者: Sayash Kapoor

开放世界评估(Open-world Evaluations)是一种新兴的AI评估方法,旨在测试AI在长期、复杂、真实世界任务中的表现,超越传统基准测试的限制。随着AI模型在MMLU、SWE-Bench等主流基准上逐渐饱和,研究人员开始质疑这些基准是否真正反映了AI在现实中的能力。例如,一个模型可能在编码基准上得分很高,但能否独立开发并发布一个iOS应用?开放世界评估正是为了回答这类问题而设计的。

CRUX(Collaborative Research for Updating AI eXpectations)是一个由17位来自学术界、政府、公民社会及工业界的研究人员组成的合作项目,旨在定期进行开放世界评估。项目的第一个实验是让一个AI代理自主开发并发布一个iOS应用至App Store。该代理使用了OpenClaw框架和Claude Opus 4.6模型,在仅有两次错误(其中一次需要人工干预)的情况下成功完成了任务。整个过程的成本约为1000美元,但其中大部分费用用于监控应用状态,实际开发和提交仅花费25美元。该实验不仅展示了AI在软件部署方面的潜力,更重要的是为AI驱动的应用商店垃圾信息提供了早期预警——研究人员在公开结果前一个月已向苹果公司披露了相关发现。

开放世界评估与传统基准测试的关键区别在于:任务在真实环境中进行,耗时较长(数天或数周),任务数量少(通常只有一个或几个),允许人工干预以激发能力上限,评估方法主要依赖深度日志分析而非单一指标。这种评估能够揭示基准测试无法捕捉的盲点,例如AI处理现实环境中意外情况的能力。然而,开放世界评估也存在局限性,包括缺乏可重复性和标准化、难以比较不同模型、需要领域专业知识进行结果验证,以及日志分析可能不完整等。

过去一年中,多个研究团队已经开展了开放世界评估。例如,Anthropic的Claude玩宝可梦游戏、Claude C编译器项目、AI Village的多个实验、Project Vend的自动商店运营等。这些评估展示了AI在代码生成、测试驱动迭代等领域的优势,但也暴露了在复杂优化、调试细微规范违规等方面的不足。CRUX计划每1-2个月发布新的评估结果,涵盖AI研发自动化、AI治理、复杂软件工程等领域。

对于政策制定者、AI评估者和开发者而言,开放世界评估提供了有价值的补充信息。政策制定者可以利用早期预警来增强社会韧性;评估者可以识别基准测试的盲点;开发者则能更清晰地了解AI系统即将能够完成的任务,从而做出战略决策。尽管开放世界评估无法完全取代基准测试,但它是理解AI能力边界的重要工具。

在CRUX#1实验中,代理负责编写代码、构建应用、准备元数据、起草并托管隐私政策、提交审核以及处理反馈。它使用了macOS虚拟机,拥有广泛的权限。实验过程中,代理出现了两个错误:一是忘记正确的凭证存储位置,二是在App Store审核过程中虚构了一个电话号码。代理还展示了自我优化的能力,通过修改方法提高了token效率,从而大幅降低了成本。此外,开放世界评估需要明确允许的人工干预程度,发布代理日志以供社区审查,并详细分析代理的行为。未来,CRUX将评估AI研发自动化、AI治理、复杂软件工程以及物理世界任务等领域。

评估意识(evaluation awareness)是另一个重要议题。前沿模型越来越能够识别评估环境并调整行为。CRUX团队认为,隐藏评估上下文越来越困难,因此他们计划公开评估计划,并允许代理在任务过程中接触到这些描述。这种做法虽然可能影响结果,但更符合现实场景。