2026-05-30 07:19 UTC+8站内改写2 分钟阅读更新: 2026-06-30 21:03 UTC+8

英伟达推出X-Token：投影引导的跨分词器知识蒸馏，在Llama-3.2-1B上平均得分超过GOLD 3.82个百分点

英伟达的X-Token解决了GOLD在跨分词器知识蒸馏中的两个结构性缺陷，在GSM8k等数学推理基准上取得了显著改进。它利用投影矩阵和P-KL与H-KL损失之间的选择机制来处理分词器不匹配问题。

来源MarkTechPost作者: Asif Razzaq

知识蒸馏（KD）将大型教师模型的“暗知识”转移到较小的学生模型。标准KD要求共享分词器，这使得无法利用如Phi-4-mini或Qwen3-4B等不兼容分词器的更强教师。英伟达的研究人员引入了X-Token，一种基于对数概率分布的跨分词器KD方法，可直接替代标准KD损失，无需辅助可训练组件或架构更改。

X-Token解决的两个问题：

第一个是GOLD中不常见词元失败。当分词器以不同方式分割文本时，关键词元落入不匹配的不常见子集，导致有害梯度。例如，Llama将“201”编码为单个词元，而Qwen3将其拆分为“2”、“0”、“1”。在GOLD下，所有多位数字词元都属于不常见集，从而抑制了它们的概率。X-Token通过投影矩阵W将学生分布投影到教师词汇空间，避免了这种噪声。

第二个是过于保守匹配。GOLD使用严格的字符串相等来定义公共子集，丢弃了如“Hundreds”和“Hund”等近等词元对。X-Token的H-KL损失通过基于投影矩阵的松弛匹配扩大了公共集，保留了更多对齐信号。

X-Token包含三个组件：跨度对齐、投影矩阵W以及两种互补损失——P-KL和H-KL。跨度对齐使用动态规划将分词序列分组为解码到相同文本子串的块。投影矩阵W通过精确匹配和多重词元规则（衰减权重）构建，将学生词元映射到教师词元。P-KL完全移除分区，直接在投影分布上计算KL散度，消除了有害梯度。H-KL保留了GOLD的混合结构但扩大了公共集，适用于分区结构健全的情况。

实验以Llama-3.2-1B为学生，Qwen3-4B和Phi-4-mini-Instruct为教师。在Qwen3-4B（P-KL模式）上，X-Token平均得分38.85，比GOLD（35.03）高3.82；GSM8k从2.56跃升至15.54，甚至超过同分词器KD（12.89）。在Phi-mini（H-KL模式）上，H-KL达到39.18，比GOLD高0.52。多教师蒸馏结合Phi-mini和Llama-3B达到40.48平均分。此外，动态KD/CE缩放和多教师蒸馏的静态权重方案进一步优化了性能。

X-Token提供了跨分词器KD的有效解决方案，在多个基准上取得最先进结果，且无需额外可训练参数。这项研究对模型选择、推理成本和性能提升具有重要意义。