為何衡量AI效能變得越來越難
AI效能基準測試正面臨飽和與測量精度下降的挑戰。METR的經典圖表顯示AI能力快速提升,但最新資料的置信區間極寬,且基準測試本身接近極限。隨著AI處理更長時間的任務,傳統測試方法難以反映真實工作場景的複雜度,測量能力與實用效能之間的鴻溝可能擴大。
在人工智慧領域,衡量模型效能的基準測試正面臨前所未有的挑戰。最著名的“METR圖表”展示了AI能力的飛速進步,但最新的資料卻暴露出測量精度的嚴重問題。
METR(模型評估與威脅研究)總部位於加利福尼亞州伯克利,其釋出的圖表透過對比AI模型完成軟體工程任務的複雜度來評估能力,複雜度以人類程式設計師完成相同任務所需時間衡量。資料顯示:GPT-3.5能完成人類30秒的任務,GPT-4提升至4分鐘,2024年12月釋出的o1推理模型達到40分鐘,2025年8月的GPT-5完成3小時任務,而Anthropic在2月推出的Claude Opus 4.6更是達到12小時。
然而,如果仔細檢視METR的任務時長頁面,Claude Opus 4.6的置信區間從5小時到66小時不等。METR的研究員David Rein在推特上強調:“當我們說測量結果極度不穩定時,我們是認真的。”問題在於,Claude Opus 4.6能夠解決測試集中最困難的部分問題,導致無法確定其能力上限。這使得近幾個月的“加速”進步究竟是真實趨勢還是統計假象,仍存疑問。
基準測試的生命週期通常經歷從低分到飽和的過程。以MMLU(大規模多工語言理解)為例,2020年GPT-3僅得43.9%,而到2025年,頂級模型已穩定在88%-93%之間,幾乎達到理論極限(因為約6.5%的題目存在錯誤)。AI公司已停止報告MMLU分數,該基準宣告飽和。
METR的基準測試採用了一種巧妙的方法:任務難度跨度極大,從幾秒的簡單查詢到數十小時的複雜程式設計。透過測量人類完成時間,可以跨模型比較能力。例如,GPT-2僅能完成2秒任務,而GPT-5達到3小時,相差5400倍。如果這種每6-7個月翻倍的趨勢持續,明年AI可能完成周級任務(40小時),2028年達到月級任務(160小時)。
但METR基準本身也接近飽和。目前測試集中最難的30小時級任務已被攻克,導致能力測量出現巨大不確定性。METR的Joel Becker在播客中坦言:“如果從測試集中移除或新增一個任務,測量結果可能從14.5小時變為8小時或20小時。”擴充套件測試集需要新增40、80、160小時級任務,但這面臨實際困難:招募程式設計師完成160小時任務需支付至少8000美元,且難以找到願意投入數週的參與者。
更深層的問題是,現實工作中的任務往往是開放式的、需要協作的,並且目標可能動態變化。現有基準擅長測量明確定義、可自動驗證的孤立任務,但無法捕捉實際工作場景的複雜度。隨著AI承擔更長時間的任務,這種測量能力與實際有用能力之間的差距可能越來越大。
METR的困境並非孤例。整個AI領域都在尋找新的評估方法,以應對快速進步帶來的測量挑戰。基準測試的演化不僅需要更難的題目,更需要重新思考如何衡量真正有價值的能力。