2026-04-29站内改写

AI評估正在成為新的計算瓶頸

本文探討了AI評估成本的急劇上升，特別是針對智慧體基準測試，指出評估已成為新的計算瓶頸。靜態基準測試可壓縮100-200倍，但智慧體和訓練中基準測試難以壓縮。可靠性要求多次執行，成本倍增。高評估成本可能導致驗證能力集中在資金充足的實驗室。

文章情報

工程師進階

要點

AI評估成本已跨越負擔能力門檻，一次智慧體評估可能花費數萬美元。
靜態基準測試可透過壓縮技術大幅降低成本，但智慧體基準測試只能實現2-3.5倍壓縮。
可靠性評估需要多次執行，成本乘以倍數，使許多獨立評估者望而卻步。
評估成本的分化可能導致外部驗證缺失，評估權力集中於少數前沿實驗室。

為什麼重要

這條新聞值得關注，因為AI評估成本已跨越負擔能力門檻，一次智慧體評估可能花費數萬美元。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

AI評估正在成為新的計算瓶頸。過去，訓練模型是成本的主要來源，而評估相對廉價。然而，隨著智慧體基準測試和科學機器學習基準測試的興起，這一局面已徹底改變。例如，Holistic Agent Leaderboard（HAL）在一次評估中花費了約4萬美元，執行了21,730個智慧體例項；而單個GAIA基準測試的成本可能高達2,829美元。在科學機器學習領域，The Well基準測試評估一個新架構需要約960個H100小時，完整測試則需3,840個H100小時，摺合超過9,600美元。

靜態基準測試曾透過壓縮技術大幅降低成本，如Flash-HELM和tinyBenchmarks實現了100-200倍的壓縮，且幾乎不損失排名準確性。但智慧體基準測試由於其互動性和多步推理的特性，壓縮效果有限，最佳方法（如中等難度過濾）僅能實現2-3.5倍壓縮。更糟糕的是，訓練中基準測試（如PaperBench和MLE-Bench）幾乎無法壓縮，因為評估本身涉及模型訓練，成本天然高昂。

可靠性是另一個成本倍增因素。單次評估結果往往噪聲很大，重複執行才能獲得統計顯著性。例如，HAL的可靠性分析顯示，簡單地將執行次數增加到8次，總成本就從4萬美元攀升至約32萬美元。類似地，PaperBench的多種子評估成本可達7.5萬美元以上。這迫使許多學術團體和安全機構放棄獨立評估。

評估成本的分化帶來了嚴峻的後果。成本盲目的排行榜獎勵無節制的資源消耗，而忽視效率。更關鍵的是，如果只有前沿實驗室的預算能夠產生可靠的基準結果，那麼外部驗證將名存實亡。評估權力將集中在開發模型的同一批實驗室手中，這違背了開放科學的初衷。

解決方案包括標準化評估文件、共享例項級輸出資料，以及推廣成本感知的帕累託前沿排行榜。例如，EvalEval聯盟的“每個評估”專案旨在建立統一的資料格式，使評估結果可複用，從而降低重複成本。但即使如此，智慧體和訓練中基準測試的根本問題仍然存在。

總之，AI評估已經從一個輔助任務變成了主要的資源消耗者，並且正在重塑誰能參與AI驗證的遊戲規則。成本不僅是技術問題，更是治理問題。

從歷史角度看，評估成本問題始於靜態基準測試。2022年斯坦福CRFM釋出的HELM基準測試，單個模型的API成本從85美元到10,926美元不等，開源模型則需要540到4,200個GPU小時。整個HELM評估30個模型和42個場景的總成本約10萬美元。更令人震驚的是，Perlitz等人對EleutherAI Pythia檢查點的分析表明，開發者在模型開發過程中多次支付評估費用。Pythia釋出了16個模型各154個檢查點，總計2,464個檢查點，執行LM評估工具包遍歷所有檢查點，使得評估成為訓練的倍增器。對於小模型，評估在整個開發週期中成為主導的計算項。

然而，靜態基準測試的壓縮技術效果顯著。Perlitz等人發現，將計算量減少100到200倍仍能保持幾乎相同的排名。Flash-HELM將此轉化為粗到精的流程：先執行廉價評估，然後僅在頂級候選上花費高解析度計算。tinyBenchmarks利用專案反應理論將MMLU從14,000個專案壓縮到100個錨點專案，誤差僅約2%。Anchor Points顯示，僅用1到30個示例就能在GLUE上對87個語言模型/提示對進行排序。這些方法利用了靜態基準測試的一個弱點：模型差異往往集中在一小部分專案上，因此排名可以承受激進的子取樣。

但這種技巧在基準測試從靜態預測轉向智慧體後急劇減弱。智慧體評估更加混亂。HAL的公開賬目顯示，執行9個模型和9個基準測試的21,730次智慧體展開展開銷為40,000美元。單個基準測試執行的成本在HAL任務中跨越四個數量級，某些基準測試內部也跨越三個數量級。這背後是赤裸裸的定價事實：Claude Opus 4.1輸入每百萬token收費15美元，輸出每百萬token收費75美元，而Gemini 2.0 Flash僅收費0.10美元和0.40美元。智慧體基準測試很少孤立地評估“模型”，而是評估模型、支架和token預算的組合，支架的微小選擇可使成本增加10倍。更糟糕的是，高支出並不總能買來更好的結果。在Online Mind2Web上，使用Claude Sonnet 4的Browser-Use花費1,577美元獲得40%的準確率，而使用GPT-5 Medium的SeeAct僅花費171美元就達到42%的準確率。HAL論文指出，“成本相差9倍，而準確率僅差2個百分點。”

一些評估本質上就是訓練。The Well捆綁了16個科學機器學習資料集，評估協議幾乎不留節省空間：每個基線模型在單個H100上訓練12小時，每個（模型，資料集）對嘗試5個學習率，重複四個架構和16個資料集。整個網格掃描消耗3,840 H100小時，約9,600美元。單個新架構仍然需要約960 H100小時，約2,400美元。訓練一個神經運算元可能需要一次12小時的H100執行，而在基準測試中評估它則需要80次這樣的訓練。這種不對稱使得The Well變得重要。在機器學習的這一角落，評估計算量超過訓練計算量大約兩個數量級，逆轉了舊的深度學習心智模型。

可靠性的成本是巨大的。上述大多數成本僅購買單次執行的測量結果，統計功效有限。當你在重複執行中測量可靠性時，所有型別的基準測試都變得更加昂貴。智慧體可靠性可能急劇下降：從單次執行的60%下降到8次執行一致性下的25%。HAL論文指出，一個“什麼都不做”的智慧體透過38%的τ-bench航空任務。HAL內部分析揭示了聚合準確率背後隱藏的脆弱性。在SciCode和CORE-Bench上，智慧體幾乎從未在沒有工具呼叫失敗的情況下完成執行。在AssistantBench和CORE-Bench上，環境錯誤發生在大約40%的執行中。在失敗任務中，智慧體在最終答案中違反明確基準指令的時間超過60%。

一個統計上可信的HAL風格評估，每個單元進行8次重複，將40,000美元的總額推至約320,000美元。相同的乘數應用於PaperBench每次執行9,500美元的成本，將單個智慧體的評估推至75,000美元以上。在The Well上，多種子協議將每個架構的成本從約960 H100小時提升至數千小時。可靠性是每一個成本類別上的乘數。

評估成本的上升對機器學習領域意味著什麼？首先，評估成本現在是一個問責障礙。學術團體、AI安全研究所和記者在嘗試獨立評估前沿智慧體時，首先遇到的是預算限制，而不是技術限制。單次GAIA執行可能超過一名研究生一年的旅行預算。單次PaperBench評估（包括LLM判斷）約需9,500美元。對六個模型進行三種子比較，這類可能發表的研究，成本超過150,000美元。其次，計算鴻溝現在包括了評估。許多基準測試已經逆轉了訓練和評估的成本關係。一個能夠微調7B模型的實驗室不能再假設它能夠負擔得起該領域認真對待的基準測試。最後，成本盲目的排行榜獎勵浪費。當排行榜報告原始準確率而忽略成本時，研究人員會理性地投入tokens，直到數字上升。HAL論文發現，更高的推理努力實際上在大多數執行中降低了準確率。

解決方案的一部分是共享評估資料。EvalEval聯盟的“Every Eval Ever”專案提供了標準化格式。它捆綁了後設資料模式、驗證器以及來自流行工具包的轉換器，因此現有的評估日誌可以一步轉換為共享格式。社群儲存庫已經託管了來自數十名貢獻者的結果。如果你執行了本文中提到的昂貴評估之一，以統一、透明、可驗證和可重現的方式存放工件是該領域可用的最高槓杆成本降低舉措。

總之，經濟學已經改變。不久前，訓練昂貴而評估便宜。對於訓練成本在5000萬到1億美元之間的前沿LLM，評估仍然看起來像四捨五入的誤差，但這個誤差現在每次基準執行花費數萬美元，並且經常留下嘈雜的結果。對於神經運算元、ML研究智慧體和複製基準測試，比例已經翻轉：一次可信的評估可能比訓練候選模型花費更多。我們已知如何使靜態評估更便宜，但智慧體評估只有部分修復，訓練中評估沒有通用的壓縮方法。可靠性增加了另一層成本。該領域仍在談論能力是主要約束，但評估指向可靠性是更嚴格的約束。治理機構應該希望衡量單次執行準確率和pass^k一致性之間的差距，然而衡量這一差距的成本最高。評估現在擁有自己的計算預算、統計方法和失敗模式。它的價格還決定了誰能夠評估強大的系統。誰能支付評估費用，誰就能編寫排行榜。