AI News HubLIVE
站内改写

英偉達推出X-Token:投影引導的跨分詞器知識蒸餾,在Llama-3.2-1B上平均得分超過GOLD 3.82個百分點

英偉達的X-Token解決了GOLD在跨分詞器知識蒸餾中的兩個結構性缺陷,在GSM8k等數學推理基準上取得了顯著改進。它利用投影矩陣和P-KL與H-KL損失之間的選擇機制來處理分詞器不匹配問題。

文章情報

工程師進階

要點

  • X-Token修復了GOLD中的不常見詞元失敗和過於保守匹配問題。
  • 在使用Qwen-4B教師模型時,它在Llama-3.2-1B上平均得分超過GOLD 3.82個百分點。
  • 使用P-KL損失,GSM8k準確率從2.56提升到15.54。
  • 多教師蒸餾進一步將平均性能提升至40.48。

為甚麼重要

這條新聞值得關注,因為X-Token修復了GOLD中的不常見詞元失敗和過於保守匹配問題。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

知識蒸餾(KD)將大型教師模型的“暗知識”轉移到較小的學生模型。標準KD要求共享分詞器,這使得無法利用如Phi-4-mini或Qwen3-4B等不兼容分詞器的更強教師。英偉達的研究人員引入了X-Token,一種基於對數概率分佈的跨分詞器KD方法,可直接替代標準KD損失,無需輔助可訓練組件或架構更改。

X-Token解決的兩個問題:

第一個是GOLD中不常見詞元失敗。當分詞器以不同方式分割文本時,關鍵詞元落入不匹配的不常見子集,導致有害梯度。例如,Llama將“201”編碼為單個詞元,而Qwen3將其拆分為“2”、“0”、“1”。在GOLD下,所有多位數字詞元都屬於不常見集,從而抑制了它們的概率。X-Token通過投影矩陣W將學生分佈投影到教師詞彙空間,避免了這種噪聲。

第二個是過於保守匹配。GOLD使用嚴格的字符串相等來定義公共子集,丟棄瞭如“Hundreds”和“Hund”等近等詞元對。X-Token的H-KL損失通過基於投影矩陣的鬆弛匹配擴大了公共集,保留了更多對齊信號。

X-Token包含三個組件:跨度對齊、投影矩陣W以及兩種互補損失——P-KL和H-KL。跨度對齊使用動態規劃將分詞序列分組為解碼到相同文本子串的塊。投影矩陣W通過精確匹配和多重詞元規則(衰減權重)構建,將學生詞元映射到教師詞元。P-KL完全移除分區,直接在投影分佈上計算KL散度,消除了有害梯度。H-KL保留了GOLD的混合結構但擴大了公共集,適用於分區結構健全的情況。

實驗以Llama-3.2-1B為學生,Qwen3-4B和Phi-4-mini-Instruct為教師。在Qwen3-4B(P-KL模式)上,X-Token平均得分38.85,比GOLD(35.03)高3.82;GSM8k從2.56躍升至15.54,甚至超過同分詞器KD(12.89)。在Phi-mini(H-KL模式)上,H-KL達到39.18,比GOLD高0.52。多教師蒸餾結合Phi-mini和Llama-3B達到40.48平均分。此外,動態KD/CE縮放和多教師蒸餾的靜態權重方案進一步優化了性能。

X-Token提供了跨分詞器KD的有效解決方案,在多個基準上取得最先進結果,且無需額外可訓練參數。這項研究對模型選擇、推理成本和性能提升具有重要意義。