2026-04-02 19:33 UTC+8站内改写2 分钟阅读更新: 2026-06-27 08:25 UTC+8

为何衡量AI性能变得越来越难

AI性能基准测试正面临饱和与测量精度下降的挑战。METR的经典图表显示AI能力快速提升，但最新数据的置信区间极宽，且基准测试本身接近极限。随着AI处理更长时间的任务，传统测试方法难以反映真实工作场景的复杂度，测量能力与实用性能之间的鸿沟可能扩大。

来源Understanding AI作者: Timothy B. Lee

文章情报

工程师进阶

要点

METR图表显示AI模型完成软件工程任务的时间从GPT-3.5的30秒跃升至Claude Opus 4.6的12小时，但最新结果的置信区间高达5-66小时。
传统基准如MMLU已饱和，模型得分接近理论上限（93%），无法区分顶尖模型。
METR的基准测试面临类似困境：最难的30小时级任务已被攻克，扩展测试需高昂成本且存在概念难题。
未来AI可完成周级甚至月级任务，但现有基准无法有效评估，真实工作场景的复杂性使测量更加困难。

为什么重要

这条新闻值得关注，因为METR图表显示AI模型完成软件工程任务的时间从GPT-3.5的30秒跃升至Claude Opus 4.6的12小时，但最新结果的置信区间高达5-66小时。

技术影响

可能影响模型选型、推理成本、产品能力和评测基准。

本面板由 AI 生成，经人工审核。

在人工智能领域，衡量模型性能的基准测试正面临前所未有的挑战。最著名的“METR图表”展示了AI能力的飞速进步，但最新的数据却暴露出测量精度的严重问题。

METR（模型评估与威胁研究）总部位于加利福尼亚州伯克利，其发布的图表通过对比AI模型完成软件工程任务的复杂度来评估能力，复杂度以人类程序员完成相同任务所需时间衡量。数据显示：GPT-3.5能完成人类30秒的任务，GPT-4提升至4分钟，2024年12月发布的o1推理模型达到40分钟，2025年8月的GPT-5完成3小时任务，而Anthropic在2月推出的Claude Opus 4.6更是达到12小时。

然而，如果仔细查看METR的任务时长页面，Claude Opus 4.6的置信区间从5小时到66小时不等。METR的研究员David Rein在推特上强调：“当我们说测量结果极度不稳定时，我们是认真的。”问题在于，Claude Opus 4.6能够解决测试集中最困难的部分问题，导致无法确定其能力上限。这使得近几个月的“加速”进步究竟是真实趋势还是统计假象，仍存疑问。

基准测试的生命周期通常经历从低分到饱和的过程。以MMLU（大规模多任务语言理解）为例，2020年GPT-3仅得43.9%，而到2025年，顶级模型已稳定在88%-93%之间，几乎达到理论极限（因为约6.5%的题目存在错误）。AI公司已停止报告MMLU分数，该基准宣告饱和。

METR的基准测试采用了一种巧妙的方法：任务难度跨度极大，从几秒的简单查询到数十小时的复杂编程。通过测量人类完成时间，可以跨模型比较能力。例如，GPT-2仅能完成2秒任务，而GPT-5达到3小时，相差5400倍。如果这种每6-7个月翻倍的趋势持续，明年AI可能完成周级任务（40小时），2028年达到月级任务（160小时）。

但METR基准本身也接近饱和。目前测试集中最难的30小时级任务已被攻克，导致能力测量出现巨大不确定性。METR的Joel Becker在播客中坦言：“如果从测试集中移除或添加一个任务，测量结果可能从14.5小时变为8小时或20小时。”扩展测试集需要添加40、80、160小时级任务，但这面临实际困难：招募程序员完成160小时任务需支付至少8000美元，且难以找到愿意投入数周的参与者。

更深层的问题是，现实工作中的任务往往是开放式的、需要协作的，并且目标可能动态变化。现有基准擅长测量明确定义、可自动验证的孤立任务，但无法捕捉实际工作场景的复杂度。随着AI承担更长时间的任务，这种测量能力与实际有用能力之间的差距可能越来越大。

METR的困境并非孤例。整个AI领域都在寻找新的评估方法，以应对快速进步带来的测量挑战。基准测试的演化不仅需要更难的题目，更需要重新思考如何衡量真正有价值的能力。