基准测试饱和之后的生活:CORE-Bench 案例研究
当基准测试的准确率饱和时,通常会被淘汰并替换。本文表明,这种方法只关注准确率,而忽略了其他六个关键维度:构造效度问题、分布外泛化能力、效率、可靠性、模型与框架的相对重要性以及人机协作的提升。通过 CORE-Bench Hard 案例,作者展示了即使在准确率饱和后,测量这些维度也能获得有意义的见解。他们发现了构造效度威胁,推出了改进版 v1.1 和分布外任务套件,并发现基准测试仍可用于测量效率、可靠性和性能。此外,一项小规模随机实验显示,人机协作可将速度提高约两倍。
来源arXiv AI作者: Nitya Nadgir, Sayash Kapoor, Kangheng Liu, Peter Kirgis, Matilda Orona, Stephan Rabanser, Tilman Bayer, Abhishek Shetty, Yue Ling, Derrick Chan-Sew, Rumi Nakagawa, Saiteja Utpala, Zachary S. Siegel, Arvind Narayanan
近年来,人工智能领域的基准测试在准确率饱和后往往被迅速淘汰,转而开发更具挑战性的新版本。然而,一篇发表于 arXiv 上的新论文指出,这种做法过于侧重准确率,忽略了评估智能体性能的其他六个关键维度:构造效度(如捷径)、分布外泛化能力、效率、可靠性、模型相对于框架的重要性,以及人机协作带来的提升。
该研究以 CORE-Bench Hard 为案例,这是一个用于评估科学代码计算可重复性的基准测试。研究人员首先揭示了在较弱的智能体下难以预见的构造效度威胁,并对基准进行了改进,推出了 CORE-Bench v1.1 和面向分布外任务的 CORE-Bench OOD 套件。
即便在准确率饱和的情况下,CORE-Bench v1.1 仍然能够有效测量智能体的效率、可靠性以及模型与框架的性能差异。此外,一项小规模随机实验显示,人机协作在真实世界的计算可重复性任务中带来了显著的速度提升——约为两倍,且这一数字可能因纯人类复现中五分之一的任务超过时间限制而被低估。
该研究的贡献在于提供了一种比当前主导的以准确率为中心的评估范式更为严谨的替代方案,为后饱和时代的基准测试设计提供了新思路。