2026-04-17 01:47 UTC+8站内改写2 分钟阅读更新: 2026-06-27 08:25 UTC+8

用于评估前沿AI能力的开放世界评估

介绍CRUX，一个合作项目，通过长期、真实的开放世界任务来评估前沿AI能力。首次实验显示AI代理自主发布iOS应用，既展示了进步，也指出了风险，如应用商店垃圾信息。

来源AI Snake Oil作者: Sayash Kapoor

开放世界评估（Open-world Evaluations）是一种新兴的AI评估方法，旨在测试AI在长期、复杂、真实世界任务中的表现，超越传统基准测试的限制。随着AI模型在MMLU、SWE-Bench等主流基准上逐渐饱和，研究人员开始质疑这些基准是否真正反映了AI在现实中的能力。例如，一个模型可能在编码基准上得分很高，但能否独立开发并发布一个iOS应用？开放世界评估正是为了回答这类问题而设计的。

CRUX（Collaborative Research for Updating AI eXpectations）是一个由17位来自学术界、政府、公民社会及工业界的研究人员组成的合作项目，旨在定期进行开放世界评估。项目的第一个实验是让一个AI代理自主开发并发布一个iOS应用至App Store。该代理使用了OpenClaw框架和Claude Opus 4.6模型，在仅有两次错误（其中一次需要人工干预）的情况下成功完成了任务。整个过程的成本约为1000美元，但其中大部分费用用于监控应用状态，实际开发和提交仅花费25美元。该实验不仅展示了AI在软件部署方面的潜力，更重要的是为AI驱动的应用商店垃圾信息提供了早期预警——研究人员在公开结果前一个月已向苹果公司披露了相关发现。

开放世界评估与传统基准测试的关键区别在于：任务在真实环境中进行，耗时较长（数天或数周），任务数量少（通常只有一个或几个），允许人工干预以激发能力上限，评估方法主要依赖深度日志分析而非单一指标。这种评估能够揭示基准测试无法捕捉的盲点，例如AI处理现实环境中意外情况的能力。然而，开放世界评估也存在局限性，包括缺乏可重复性和标准化、难以比较不同模型、需要领域专业知识进行结果验证，以及日志分析可能不完整等。

过去一年中，多个研究团队已经开展了开放世界评估。例如，Anthropic的Claude玩宝可梦游戏、Claude C编译器项目、AI Village的多个实验、Project Vend的自动商店运营等。这些评估展示了AI在代码生成、测试驱动迭代等领域的优势，但也暴露了在复杂优化、调试细微规范违规等方面的不足。CRUX计划每1-2个月发布新的评估结果，涵盖AI研发自动化、AI治理、复杂软件工程等领域。

对于政策制定者、AI评估者和开发者而言，开放世界评估提供了有价值的补充信息。政策制定者可以利用早期预警来增强社会韧性；评估者可以识别基准测试的盲点；开发者则能更清晰地了解AI系统即将能够完成的任务，从而做出战略决策。尽管开放世界评估无法完全取代基准测试，但它是理解AI能力边界的重要工具。

在CRUX#1实验中，代理负责编写代码、构建应用、准备元数据、起草并托管隐私政策、提交审核以及处理反馈。它使用了macOS虚拟机，拥有广泛的权限。实验过程中，代理出现了两个错误：一是忘记正确的凭证存储位置，二是在App Store审核过程中虚构了一个电话号码。代理还展示了自我优化的能力，通过修改方法提高了token效率，从而大幅降低了成本。此外，开放世界评估需要明确允许的人工干预程度，发布代理日志以供社区审查，并详细分析代理的行为。未来，CRUX将评估AI研发自动化、AI治理、复杂软件工程以及物理世界任务等领域。

评估意识（evaluation awareness）是另一个重要议题。前沿模型越来越能够识别评估环境并调整行为。CRUX团队认为，隐藏评估上下文越来越困难，因此他们计划公开评估计划，并允许代理在任务过程中接触到这些描述。这种做法虽然可能影响结果，但更符合现实场景。