AI评估正在成为新的计算瓶颈
本文探讨了AI评估成本的急剧上升,特别是针对智能体基准测试,指出评估已成为新的计算瓶颈。静态基准测试可压缩100-200倍,但智能体和训练中基准测试难以压缩。可靠性要求多次运行,成本倍增。高评估成本可能导致验证能力集中在资金充足的实验室。
文章情报
要点
- AI评估成本已跨越负担能力门槛,一次智能体评估可能花费数万美元。
- 静态基准测试可通过压缩技术大幅降低成本,但智能体基准测试只能实现2-3.5倍压缩。
- 可靠性评估需要多次运行,成本乘以倍数,使许多独立评估者望而却步。
- 评估成本的分化可能导致外部验证缺失,评估权力集中于少数前沿实验室。
为什么重要
这条新闻值得关注,因为AI评估成本已跨越负担能力门槛,一次智能体评估可能花费数万美元。
技术影响
可能影响模型选型、推理成本、产品能力和评测基准。
AI评估正在成为新的计算瓶颈。过去,训练模型是成本的主要来源,而评估相对廉价。然而,随着智能体基准测试和科学机器学习基准测试的兴起,这一局面已彻底改变。例如,Holistic Agent Leaderboard(HAL)在一次评估中花费了约4万美元,运行了21,730个智能体实例;而单个GAIA基准测试的成本可能高达2,829美元。在科学机器学习领域,The Well基准测试评估一个新架构需要约960个H100小时,完整测试则需3,840个H100小时,折合超过9,600美元。
静态基准测试曾通过压缩技术大幅降低成本,如Flash-HELM和tinyBenchmarks实现了100-200倍的压缩,且几乎不损失排名准确性。但智能体基准测试由于其交互性和多步推理的特性,压缩效果有限,最佳方法(如中等难度过滤)仅能实现2-3.5倍压缩。更糟糕的是,训练中基准测试(如PaperBench和MLE-Bench)几乎无法压缩,因为评估本身涉及模型训练,成本天然高昂。
可靠性是另一个成本倍增因素。单次评估结果往往噪声很大,重复运行才能获得统计显著性。例如,HAL的可靠性分析显示,简单地将运行次数增加到8次,总成本就从4万美元攀升至约32万美元。类似地,PaperBench的多种子评估成本可达7.5万美元以上。这迫使许多学术团体和安全机构放弃独立评估。
评估成本的分化带来了严峻的后果。成本盲目的排行榜奖励无节制的资源消耗,而忽视效率。更关键的是,如果只有前沿实验室的预算能够产生可靠的基准结果,那么外部验证将名存实亡。评估权力将集中在开发模型的同一批实验室手中,这违背了开放科学的初衷。
解决方案包括标准化评估文档、共享实例级输出数据,以及推广成本感知的帕累托前沿排行榜。例如,EvalEval联盟的“每个评估”项目旨在建立统一的数据格式,使评估结果可复用,从而降低重复成本。但即使如此,智能体和训练中基准测试的根本问题仍然存在。
总之,AI评估已经从一个辅助任务变成了主要的资源消耗者,并且正在重塑谁能参与AI验证的游戏规则。成本不仅是技术问题,更是治理问题。
从历史角度看,评估成本问题始于静态基准测试。2022年斯坦福CRFM发布的HELM基准测试,单个模型的API成本从85美元到10,926美元不等,开源模型则需要540到4,200个GPU小时。整个HELM评估30个模型和42个场景的总成本约10万美元。更令人震惊的是,Perlitz等人对EleutherAI Pythia检查点的分析表明,开发者在模型开发过程中多次支付评估费用。Pythia发布了16个模型各154个检查点,总计2,464个检查点,运行LM评估工具包遍历所有检查点,使得评估成为训练的倍增器。对于小模型,评估在整个开发周期中成为主导的计算项。
然而,静态基准测试的压缩技术效果显著。Perlitz等人发现,将计算量减少100到200倍仍能保持几乎相同的排名。Flash-HELM将此转化为粗到精的流程:先运行廉价评估,然后仅在顶级候选上花费高分辨率计算。tinyBenchmarks利用项目反应理论将MMLU从14,000个项目压缩到100个锚点项目,误差仅约2%。Anchor Points显示,仅用1到30个示例就能在GLUE上对87个语言模型/提示对进行排序。这些方法利用了静态基准测试的一个弱点:模型差异往往集中在一小部分项目上,因此排名可以承受激进的子采样。
但这种技巧在基准测试从静态预测转向智能体后急剧减弱。智能体评估更加混乱。HAL的公开账目显示,运行9个模型和9个基准测试的21,730次智能体展开展开销为40,000美元。单个基准测试运行的成本在HAL任务中跨越四个数量级,某些基准测试内部也跨越三个数量级。这背后是赤裸裸的定价事实:Claude Opus 4.1输入每百万token收费15美元,输出每百万token收费75美元,而Gemini 2.0 Flash仅收费0.10美元和0.40美元。智能体基准测试很少孤立地评估“模型”,而是评估模型、支架和token预算的组合,支架的微小选择可使成本增加10倍。更糟糕的是,高支出并不总能买来更好的结果。在Online Mind2Web上,使用Claude Sonnet 4的Browser-Use花费1,577美元获得40%的准确率,而使用GPT-5 Medium的SeeAct仅花费171美元就达到42%的准确率。HAL论文指出,“成本相差9倍,而准确率仅差2个百分点。”
一些评估本质上就是训练。The Well捆绑了16个科学机器学习数据集,评估协议几乎不留节省空间:每个基线模型在单个H100上训练12小时,每个(模型,数据集)对尝试5个学习率,重复四个架构和16个数据集。整个网格扫描消耗3,840 H100小时,约9,600美元。单个新架构仍然需要约960 H100小时,约2,400美元。训练一个神经算子可能需要一次12小时的H100运行,而在基准测试中评估它则需要80次这样的训练。这种不对称使得The Well变得重要。在机器学习的这一角落,评估计算量超过训练计算量大约两个数量级,逆转了旧的深度学习心智模型。
可靠性的成本是巨大的。上述大多数成本仅购买单次运行的测量结果,统计功效有限。当你在重复运行中测量可靠性时,所有类型的基准测试都变得更加昂贵。智能体可靠性可能急剧下降:从单次运行的60%下降到8次运行一致性下的25%。HAL论文指出,一个“什么都不做”的智能体通过38%的τ-bench航空任务。HAL内部分析揭示了聚合准确率背后隐藏的脆弱性。在SciCode和CORE-Bench上,智能体几乎从未在没有工具调用失败的情况下完成运行。在AssistantBench和CORE-Bench上,环境错误发生在大约40%的运行中。在失败任务中,智能体在最终答案中违反明确基准指令的时间超过60%。
一个统计上可信的HAL风格评估,每个单元进行8次重复,将40,000美元的总额推至约320,000美元。相同的乘数应用于PaperBench每次运行9,500美元的成本,将单个智能体的评估推至75,000美元以上。在The Well上,多种子协议将每个架构的成本从约960 H100小时提升至数千小时。可靠性是每一个成本类别上的乘数。
评估成本的上升对机器学习领域意味着什么?首先,评估成本现在是一个问责障碍。学术团体、AI安全研究所和记者在尝试独立评估前沿智能体时,首先遇到的是预算限制,而不是技术限制。单次GAIA运行可能超过一名研究生一年的旅行预算。单次PaperBench评估(包括LLM判断)约需9,500美元。对六个模型进行三种子比较,这类可能发表的研究,成本超过150,000美元。其次,计算鸿沟现在包括了评估。许多基准测试已经逆转了训练和评估的成本关系。一个能够微调7B模型的实验室不能再假设它能够负担得起该领域认真对待的基准测试。最后,成本盲目的排行榜奖励浪费。当排行榜报告原始准确率而忽略成本时,研究人员会理性地投入tokens,直到数字上升。HAL论文发现,更高的推理努力实际上在大多数运行中降低了准确率。
解决方案的一部分是共享评估数据。EvalEval联盟的“Every Eval Ever”项目提供了标准化格式。它捆绑了元数据模式、验证器以及来自流行工具包的转换器,因此现有的评估日志可以一步转换为共享格式。社区存储库已经托管了来自数十名贡献者的结果。如果你运行了本文中提到的昂贵评估之一,以统一、透明、可验证和可重现的方式存放工件是该领域可用的最高杠杆成本降低举措。
总之,经济学已经改变。不久前,训练昂贵而评估便宜。对于训练成本在5000万到1亿美元之间的前沿LLM,评估仍然看起来像四舍五入的误差,但这个误差现在每次基准运行花费数万美元,并且经常留下嘈杂的结果。对于神经算子、ML研究智能体和复制基准测试,比例已经翻转:一次可信的评估可能比训练候选模型花费更多。我们已知如何使静态评估更便宜,但智能体评估只有部分修复,训练中评估没有通用的压缩方法。可靠性增加了另一层成本。该领域仍在谈论能力是主要约束,但评估指向可靠性是更严格的约束。治理机构应该希望衡量单次运行准确率和pass^k一致性之间的差距,然而衡量这一差距的成本最高。评估现在拥有自己的计算预算、统计方法和失败模式。它的价格还决定了谁能够评估强大的系统。谁能支付评估费用,谁就能编写排行榜。