2026-06-30 12:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-30 15:51 UTC+8

資料與評估閉環：提升模型能力

一種名為'能力切片'的新方法，透過將評估樣本分組（背景條件、任務型別、求解操作和輸出約束），填補了大語言模型預訓練中評估與資料之間的鴻溝，使從基準測試失敗到資料干預的推理變得系統化。兩個案例研究驗證了其有效性：一是診斷出BBH下降源於掩碼EOS損失而非推理能力減弱，二是透過針對性取樣將AIME2025/2026的Pass@128從6.67/0.00提升至26.67。

來源arXiv AI作者: Zhixuan Li, Jiangan Yuan, Han Xu

在大語言模型（LLM）的預訓練中，模型能力是核心變數，但無法直接觀測。資料塑造能力，而評估只能事後揭示能力，將樣本、提示、解碼和評分規則壓縮成一個有噪聲的分數。實際操作中，最佳化是反向進行的：先觀察到失敗，然後工程師必須推斷出語料庫的修正方法。然而，評估和資料使用不同的術語——基準名稱和逐樣本正確性 vs. 資料來源、領域和質量標籤——因此這種推斷往往依賴於直覺而非系統方法。

為了解決這一難題，研究人員提出了“能力切片”（capability slice）的概念。能力切片是一組評估樣本，它們共享背景條件、任務型別、求解操作和輸出約束。它既足夠精細以定位單一弱點，又足夠穩定以進行聚合，避免了基準名稱過於粗糙或單個樣本過於嘈雜的問題。基於這個單元，研究團隊構建了一個評估分類法、一個非指令資料分類法以及對映規則，形成了一個閉環，能夠將基準級別的失敗轉化為有針對性的、可測試的資料干預。

該閉環在兩個方向相反的案例研究中進行了測試。第一個案例中，閉環排除了資料問題：繼續預訓練導致BBH基準下降46.82%，但診斷髮現這是由於一個掩碼的<EOS>損失而非推理能力減弱；恢復該損失後，BBH回升至66.44，超過了原始檢查點，且未改變資料。第二個案例中，閉環確認了資料問題：持續的數學推理弱點被分解為特定求解操作的失敗組合，基於此構建的弱點定向取樣程式將AIME2025/AIME2026的Pass@128從6.67/0.00分別提升至26.67。

相同的未修改閉環在兩個案例中得出了相反的但正確的結論，這表明從評估到資料的推斷可以變得常規、可審計且可透過實驗驗證，而不再依賴於直覺。這一方法為LLM預訓練最佳化提供了一種系統化的工具，有望大幅提高模型能力提升的效率。