2026-06-05 12:00 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

評估盲點：大型語言模型基準覆蓋的體視學理論

一篇新論文提出了評估LLM基準覆蓋的體視學理論，發現基準套件的有效維度導致巨大盲點，遠超分數差異，並提出了最小基準集選擇算法和解決了Gardner問題。

來源arXiv Machine Learning作者: Jason Z Wang

一篇由Jason Z Wang撰寫的論文《評估盲點：大型語言模型基準覆蓋的體視學理論》提出了一個用於衡量LLM基準覆蓋的體視學理論框架。該理論指出，對於任何具有有效維度d_eff的基準套件，與相同分數一致的兩個凸能力配置文件之間的可見豪斯多夫距離受限於一個與m^{-¹/(d_eff-1)}成正比的上界。

通過實證分析，研究評估了三個獨立排行榜（Open LLM v2、擴展的12基準套件和LiveBench），發現它們的競爭前沿有效維度均在2.86到4.80之間。這些基準套件的結構性盲點比觀察到的亞軍分數差距大兩個數量級，並且比統計噪聲高52到127倍。這意味着當前的評估方法可能嚴重低估了模型能力的差異。

在卡方投影模型下，各向同性先驗是最樂觀的情況。通過六種隱藏能力先驗和四種環境維度的模擬，排名前兩位模型的半分割交換率保持在0.38到0.49之間。在500次隨機可見/保留分割試驗中，92%的試驗改變了第一名排名，平均有2.83個前五名模型發生變化，這表明基準選擇的微小變化可能導致排名的劇烈波動。

為了減少這種不穩定性，研究採用了一個帶有Nemhauser(1-1/e)保證的子模貪心算法，找到了由4個基準組成的穩定核心集。僅需7個基準即可達到90%的覆蓋，並且訓練好的子集在不同季度間轉移時保持了93%到97%的保留率。該算法通過12個內部基準和27個Chatbot Arena類別的反事實驗證，顯示特徵結構能夠預測哪些評估是不可替代的（移除干擾的rho=-0.69，p=0.013），以及哪些外部評估帶來了新信息（rho=+0.38）。

作為第二個獨立的理論貢獻，論文解決了Gardner問題1.5（1995），針對C^2支持函數，通過S^(D-1)上的最優恢復理論，確立了在一般維度下的極小極大率Theta(R/(kappa m^(2/(D-1))))。這一結果對於理解高維空間中的函數恢復具有重要意義。

該研究為LLM評估提供了理論基礎，強調了當前基準方法的侷限性，並提出了更穩定、高效的評估策略。