2026-05-30 07:19 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

英偉達推出X-Token：投影引導的跨分詞器知識蒸餾，在Llama-3.2-1B上平均得分超過GOLD 3.82個百分點

英偉達的X-Token解決了GOLD在跨分詞器知識蒸餾中的兩個結構性缺陷，在GSM8k等數學推理基準上取得了顯著改進。它利用投影矩陣和P-KL與H-KL損失之間的選擇機制來處理分詞器不匹配問題。

來源MarkTechPost作者: Asif Razzaq

知識蒸餾（KD）將大型教師模型的“暗知識”轉移到較小的學生模型。標準KD要求共享分詞器，這使得無法利用如Phi-4-mini或Qwen3-4B等不兼容分詞器的更強教師。英偉達的研究人員引入了X-Token，一種基於對數概率分佈的跨分詞器KD方法，可直接替代標準KD損失，無需輔助可訓練組件或架構更改。

X-Token解決的兩個問題：

第一個是GOLD中不常見詞元失敗。當分詞器以不同方式分割文本時，關鍵詞元落入不匹配的不常見子集，導致有害梯度。例如，Llama將“201”編碼為單個詞元，而Qwen3將其拆分為“2”、“0”、“1”。在GOLD下，所有多位數字詞元都屬於不常見集，從而抑制了它們的概率。X-Token通過投影矩陣W將學生分佈投影到教師詞彙空間，避免了這種噪聲。

第二個是過於保守匹配。GOLD使用嚴格的字符串相等來定義公共子集，丟棄瞭如“Hundreds”和“Hund”等近等詞元對。X-Token的H-KL損失通過基於投影矩陣的鬆弛匹配擴大了公共集，保留了更多對齊信號。

X-Token包含三個組件：跨度對齊、投影矩陣W以及兩種互補損失——P-KL和H-KL。跨度對齊使用動態規劃將分詞序列分組為解碼到相同文本子串的塊。投影矩陣W通過精確匹配和多重詞元規則（衰減權重）構建，將學生詞元映射到教師詞元。P-KL完全移除分區，直接在投影分佈上計算KL散度，消除了有害梯度。H-KL保留了GOLD的混合結構但擴大了公共集，適用於分區結構健全的情況。

實驗以Llama-3.2-1B為學生，Qwen3-4B和Phi-4-mini-Instruct為教師。在Qwen3-4B（P-KL模式）上，X-Token平均得分38.85，比GOLD（35.03）高3.82；GSM8k從2.56躍升至15.54，甚至超過同分詞器KD（12.89）。在Phi-mini（H-KL模式）上，H-KL達到39.18，比GOLD高0.52。多教師蒸餾結合Phi-mini和Llama-3B達到40.48平均分。此外，動態KD/CE縮放和多教師蒸餾的靜態權重方案進一步優化了性能。

X-Token提供了跨分詞器KD的有效解決方案，在多個基準上取得最先進結果，且無需額外可訓練參數。這項研究對模型選擇、推理成本和性能提升具有重要意義。