2026-04-02 19:33 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-27 08:25 UTC+8

為何衡量AI效能變得越來越難

AI效能基準測試正面臨飽和與測量精度下降的挑戰。METR的經典圖表顯示AI能力快速提升，但最新資料的置信區間極寬，且基準測試本身接近極限。隨著AI處理更長時間的任務，傳統測試方法難以反映真實工作場景的複雜度，測量能力與實用效能之間的鴻溝可能擴大。

來源Understanding AI作者: Timothy B. Lee

文章情報

工程師進階

要點

METR圖表顯示AI模型完成軟體工程任務的時間從GPT-3.5的30秒躍升至Claude Opus 4.6的12小時，但最新結果的置信區間高達5-66小時。
傳統基準如MMLU已飽和，模型得分接近理論上限（93%），無法區分頂尖模型。
METR的基準測試面臨類似困境：最難的30小時級任務已被攻克，擴充套件測試需高昂成本且存在概念難題。
未來AI可完成周級甚至月級任務，但現有基準無法有效評估，真實工作場景的複雜性使測量更加困難。

為什麼重要

這條新聞值得關注，因為METR圖表顯示AI模型完成軟體工程任務的時間從GPT-3.5的30秒躍升至Claude Opus 4.6的12小時，但最新結果的置信區間高達5-66小時。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

本面板由 AI 生成，經人工審核。

在人工智慧領域，衡量模型效能的基準測試正面臨前所未有的挑戰。最著名的“METR圖表”展示了AI能力的飛速進步，但最新的資料卻暴露出測量精度的嚴重問題。

METR（模型評估與威脅研究）總部位於加利福尼亞州伯克利，其釋出的圖表透過對比AI模型完成軟體工程任務的複雜度來評估能力，複雜度以人類程式設計師完成相同任務所需時間衡量。資料顯示：GPT-3.5能完成人類30秒的任務，GPT-4提升至4分鐘，2024年12月釋出的o1推理模型達到40分鐘，2025年8月的GPT-5完成3小時任務，而Anthropic在2月推出的Claude Opus 4.6更是達到12小時。

然而，如果仔細檢視METR的任務時長頁面，Claude Opus 4.6的置信區間從5小時到66小時不等。METR的研究員David Rein在推特上強調：“當我們說測量結果極度不穩定時，我們是認真的。”問題在於，Claude Opus 4.6能夠解決測試集中最困難的部分問題，導致無法確定其能力上限。這使得近幾個月的“加速”進步究竟是真實趨勢還是統計假象，仍存疑問。

基準測試的生命週期通常經歷從低分到飽和的過程。以MMLU（大規模多工語言理解）為例，2020年GPT-3僅得43.9%，而到2025年，頂級模型已穩定在88%-93%之間，幾乎達到理論極限（因為約6.5%的題目存在錯誤）。AI公司已停止報告MMLU分數，該基準宣告飽和。

METR的基準測試採用了一種巧妙的方法：任務難度跨度極大，從幾秒的簡單查詢到數十小時的複雜程式設計。透過測量人類完成時間，可以跨模型比較能力。例如，GPT-2僅能完成2秒任務，而GPT-5達到3小時，相差5400倍。如果這種每6-7個月翻倍的趨勢持續，明年AI可能完成周級任務（40小時），2028年達到月級任務（160小時）。

但METR基準本身也接近飽和。目前測試集中最難的30小時級任務已被攻克，導致能力測量出現巨大不確定性。METR的Joel Becker在播客中坦言：“如果從測試集中移除或新增一個任務，測量結果可能從14.5小時變為8小時或20小時。”擴充套件測試集需要新增40、80、160小時級任務，但這面臨實際困難：招募程式設計師完成160小時任務需支付至少8000美元，且難以找到願意投入數週的參與者。

更深層的問題是，現實工作中的任務往往是開放式的、需要協作的，並且目標可能動態變化。現有基準擅長測量明確定義、可自動驗證的孤立任務，但無法捕捉實際工作場景的複雜度。隨著AI承擔更長時間的任務，這種測量能力與實際有用能力之間的差距可能越來越大。

METR的困境並非孤例。整個AI領域都在尋找新的評估方法，以應對快速進步帶來的測量挑戰。基準測試的演化不僅需要更難的題目，更需要重新思考如何衡量真正有價值的能力。