为何衡量AI性能变得越来越难
AI性能基准测试正面临饱和与测量精度下降的挑战。METR的经典图表显示AI能力快速提升,但最新数据的置信区间极宽,且基准测试本身接近极限。随着AI处理更长时间的任务,传统测试方法难以反映真实工作场景的复杂度,测量能力与实用性能之间的鸿沟可能扩大。
在人工智能领域,衡量模型性能的基准测试正面临前所未有的挑战。最著名的“METR图表”展示了AI能力的飞速进步,但最新的数据却暴露出测量精度的严重问题。
METR(模型评估与威胁研究)总部位于加利福尼亚州伯克利,其发布的图表通过对比AI模型完成软件工程任务的复杂度来评估能力,复杂度以人类程序员完成相同任务所需时间衡量。数据显示:GPT-3.5能完成人类30秒的任务,GPT-4提升至4分钟,2024年12月发布的o1推理模型达到40分钟,2025年8月的GPT-5完成3小时任务,而Anthropic在2月推出的Claude Opus 4.6更是达到12小时。
然而,如果仔细查看METR的任务时长页面,Claude Opus 4.6的置信区间从5小时到66小时不等。METR的研究员David Rein在推特上强调:“当我们说测量结果极度不稳定时,我们是认真的。”问题在于,Claude Opus 4.6能够解决测试集中最困难的部分问题,导致无法确定其能力上限。这使得近几个月的“加速”进步究竟是真实趋势还是统计假象,仍存疑问。
基准测试的生命周期通常经历从低分到饱和的过程。以MMLU(大规模多任务语言理解)为例,2020年GPT-3仅得43.9%,而到2025年,顶级模型已稳定在88%-93%之间,几乎达到理论极限(因为约6.5%的题目存在错误)。AI公司已停止报告MMLU分数,该基准宣告饱和。
METR的基准测试采用了一种巧妙的方法:任务难度跨度极大,从几秒的简单查询到数十小时的复杂编程。通过测量人类完成时间,可以跨模型比较能力。例如,GPT-2仅能完成2秒任务,而GPT-5达到3小时,相差5400倍。如果这种每6-7个月翻倍的趋势持续,明年AI可能完成周级任务(40小时),2028年达到月级任务(160小时)。
但METR基准本身也接近饱和。目前测试集中最难的30小时级任务已被攻克,导致能力测量出现巨大不确定性。METR的Joel Becker在播客中坦言:“如果从测试集中移除或添加一个任务,测量结果可能从14.5小时变为8小时或20小时。”扩展测试集需要添加40、80、160小时级任务,但这面临实际困难:招募程序员完成160小时任务需支付至少8000美元,且难以找到愿意投入数周的参与者。
更深层的问题是,现实工作中的任务往往是开放式的、需要协作的,并且目标可能动态变化。现有基准擅长测量明确定义、可自动验证的孤立任务,但无法捕捉实际工作场景的复杂度。随着AI承担更长时间的任务,这种测量能力与实际有用能力之间的差距可能越来越大。
METR的困境并非孤例。整个AI领域都在寻找新的评估方法,以应对快速进步带来的测量挑战。基准测试的演化不仅需要更难的题目,更需要重新思考如何衡量真正有价值的能力。