AI News HubLIVE
站內改寫1 分鐘閱讀

資料與評估閉環:提升模型能力

一種名為'能力切片'的新方法,透過將評估樣本分組(背景條件、任務型別、求解操作和輸出約束),填補了大語言模型預訓練中評估與資料之間的鴻溝,使從基準測試失敗到資料干預的推理變得系統化。兩個案例研究驗證了其有效性:一是診斷出BBH下降源於掩碼EOS損失而非推理能力減弱,二是透過針對性取樣將AIME2025/2026的Pass@128從6.67/0.00提升至26.67。

來源arXiv AI作者: Zhixuan Li, Jiangan Yuan, Han Xu

在大語言模型(LLM)的預訓練中,模型能力是核心變數,但無法直接觀測。資料塑造能力,而評估只能事後揭示能力,將樣本、提示、解碼和評分規則壓縮成一個有噪聲的分數。實際操作中,最佳化是反向進行的:先觀察到失敗,然後工程師必須推斷出語料庫的修正方法。然而,評估和資料使用不同的術語——基準名稱和逐樣本正確性 vs. 資料來源、領域和質量標籤——因此這種推斷往往依賴於直覺而非系統方法。

為了解決這一難題,研究人員提出了“能力切片”(capability slice)的概念。能力切片是一組評估樣本,它們共享背景條件、任務型別、求解操作和輸出約束。它既足夠精細以定位單一弱點,又足夠穩定以進行聚合,避免了基準名稱過於粗糙或單個樣本過於嘈雜的問題。基於這個單元,研究團隊構建了一個評估分類法、一個非指令資料分類法以及對映規則,形成了一個閉環,能夠將基準級別的失敗轉化為有針對性的、可測試的資料干預。

該閉環在兩個方向相反的案例研究中進行了測試。第一個案例中,閉環排除了資料問題:繼續預訓練導致BBH基準下降46.82%,但診斷髮現這是由於一個掩碼的<EOS>損失而非推理能力減弱;恢復該損失後,BBH回升至66.44,超過了原始檢查點,且未改變資料。第二個案例中,閉環確認了資料問題:持續的數學推理弱點被分解為特定求解操作的失敗組合,基於此構建的弱點定向取樣程式將AIME2025/AIME2026的Pass@128從6.67/0.00分別提升至26.67。

相同的未修改閉環在兩個案例中得出了相反的但正確的結論,這表明從評估到資料的推斷可以變得常規、可審計且可透過實驗驗證,而不再依賴於直覺。這一方法為LLM預訓練最佳化提供了一種系統化的工具,有望大幅提高模型能力提升的效率。