2026-06-26 12:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-26 15:47 UTC+8

基準測試飽和之後的生活：CORE-Bench 案例研究

當基準測試的準確率飽和時，通常會被淘汰並替換。本文表明，這種方法只關注準確率，而忽略了其他六個關鍵維度：構造效度問題、分佈外泛化能力、效率、可靠性、模型與框架的相對重要性以及人機協作的提升。通過 CORE-Bench Hard 案例，作者展示了即使在準確率飽和後，測量這些維度也能獲得有意義的見解。他們發現了構造效度威脅，推出了改進版 v1.1 和分佈外任務套件，並發現基準測試仍可用於測量效率、可靠性和性能。此外，一項小規模隨機實驗顯示，人機協作可將速度提高約兩倍。

來源arXiv AI作者: Nitya Nadgir, Sayash Kapoor, Kangheng Liu, Peter Kirgis, Matilda Orona, Stephan Rabanser, Tilman Bayer, Abhishek Shetty, Yue Ling, Derrick Chan-Sew, Rumi Nakagawa, Saiteja Utpala, Zachary S. Siegel, Arvind Narayanan

近年來，人工智能領域的基準測試在準確率飽和後往往被迅速淘汰，轉而開發更具挑戰性的新版本。然而，一篇發表於 arXiv 上的新論文指出，這種做法過於側重準確率，忽略了評估智能體性能的其他六個關鍵維度：構造效度（如捷徑）、分佈外泛化能力、效率、可靠性、模型相對於框架的重要性，以及人機協作帶來的提升。

該研究以 CORE-Bench Hard 為案例，這是一個用於評估科學代碼計算可重複性的基準測試。研究人員首先揭示了在較弱的智能體下難以預見的構造效度威脅，並對基準進行了改進，推出了 CORE-Bench v1.1 和麪向分佈外任務的 CORE-Bench OOD 套件。

即便在準確率飽和的情況下，CORE-Bench v1.1 仍然能夠有效測量智能體的效率、可靠性以及模型與框架的性能差異。此外，一項小規模隨機實驗顯示，人機協作在真實世界的計算可重複性任務中帶來了顯著的速度提升——約為兩倍，且這一數字可能因純人類復現中五分之一的任務超過時間限制而被低估。

該研究的貢獻在於提供了一種比當前主導的以準確率為中心的評估範式更為嚴謹的替代方案，為後飽和時代的基準測試設計提供了新思路。