AI News HubLIVE
站内改写

英伟达推出X-Token:投影引导的跨分词器知识蒸馏,在Llama-3.2-1B上平均得分超过GOLD 3.82个百分点

英伟达的X-Token解决了GOLD在跨分词器知识蒸馏中的两个结构性缺陷,在GSM8k等数学推理基准上取得了显著改进。它利用投影矩阵和P-KL与H-KL损失之间的选择机制来处理分词器不匹配问题。

文章情报

工程师进阶

要点

  • X-Token修复了GOLD中的不常见词元失败和过于保守匹配问题。
  • 在使用Qwen-4B教师模型时,它在Llama-3.2-1B上平均得分超过GOLD 3.82个百分点。
  • 使用P-KL损失,GSM8k准确率从2.56提升到15.54。
  • 多教师蒸馏进一步将平均性能提升至40.48。

为什么重要

这条新闻值得关注,因为X-Token修复了GOLD中的不常见词元失败和过于保守匹配问题。

技术影响

可能影响模型选型、推理成本、产品能力和评测基准。

知识蒸馏(KD)将大型教师模型的“暗知识”转移到较小的学生模型。标准KD要求共享分词器,这使得无法利用如Phi-4-mini或Qwen3-4B等不兼容分词器的更强教师。英伟达的研究人员引入了X-Token,一种基于对数概率分布的跨分词器KD方法,可直接替代标准KD损失,无需辅助可训练组件或架构更改。

X-Token解决的两个问题:

第一个是GOLD中不常见词元失败。当分词器以不同方式分割文本时,关键词元落入不匹配的不常见子集,导致有害梯度。例如,Llama将“201”编码为单个词元,而Qwen3将其拆分为“2”、“0”、“1”。在GOLD下,所有多位数字词元都属于不常见集,从而抑制了它们的概率。X-Token通过投影矩阵W将学生分布投影到教师词汇空间,避免了这种噪声。

第二个是过于保守匹配。GOLD使用严格的字符串相等来定义公共子集,丢弃了如“Hundreds”和“Hund”等近等词元对。X-Token的H-KL损失通过基于投影矩阵的松弛匹配扩大了公共集,保留了更多对齐信号。

X-Token包含三个组件:跨度对齐、投影矩阵W以及两种互补损失——P-KL和H-KL。跨度对齐使用动态规划将分词序列分组为解码到相同文本子串的块。投影矩阵W通过精确匹配和多重词元规则(衰减权重)构建,将学生词元映射到教师词元。P-KL完全移除分区,直接在投影分布上计算KL散度,消除了有害梯度。H-KL保留了GOLD的混合结构但扩大了公共集,适用于分区结构健全的情况。

实验以Llama-3.2-1B为学生,Qwen3-4B和Phi-4-mini-Instruct为教师。在Qwen3-4B(P-KL模式)上,X-Token平均得分38.85,比GOLD(35.03)高3.82;GSM8k从2.56跃升至15.54,甚至超过同分词器KD(12.89)。在Phi-mini(H-KL模式)上,H-KL达到39.18,比GOLD高0.52。多教师蒸馏结合Phi-mini和Llama-3B达到40.48平均分。此外,动态KD/CE缩放和多教师蒸馏的静态权重方案进一步优化了性能。

X-Token提供了跨分词器KD的有效解决方案,在多个基准上取得最先进结果,且无需额外可训练参数。这项研究对模型选择、推理成本和性能提升具有重要意义。