自验证蒸馏:你的语言模型秘密地成为自己的合成数据管道
提出自验证蒸馏(Self-Verified Distillation, SVD)方法,让大语言模型仅利用无标签提示进行自我改进,无需外部教师或工具反馈。在数学、科学和编程三个推理领域,Qwen3模型通过SVD训练后性能显著提升。
文章情报
要点
- SVD通过三阶段验证(循环一致性、事实性、正确性)筛选模型自生成的解决方案。
- 使用更多候选生成和更大的验证预算可提高自筛选数据质量。
- Qwen3-4B在数学、科学和编程上分别提升16.7、11.1和8.3个点(pass@1)。
- SVD在仅需单次推理调用的情况下,性能优于需要额外计算资源的测试时计算基线。
为什么重要
这条新闻值得关注,因为SVD通过三阶段验证(循环一致性、事实性、正确性)筛选模型自生成的解决方案。
技术影响
可能影响模型选型、推理成本、产品能力和评测基准。
近日,一篇提交至arXiv的论文提出了名为“自验证蒸馏”(Self-Verified Distillation, SVD)的新算法,旨在让大语言模型(LLMs)仅利用无标签的提示便实现自我改进,无需任何外部教师模型或工具反馈。该研究聚焦于数学、科学和编程三个推理领域,从无标签的种子问题出发,不依赖真实答案。
SVD的核心思想是让模型自己生成候选答案,然后通过一个三阶段级联验证流程进行筛选:循环一致性检查、事实性检查和正确性检查。只有通过所有阶段且获得一致判断的答案才会被接受,用于后续的训练数据集。这一想法受到UQ基准测试中使用多个验证器筛选难解问题候选答案的启发。研究团队发现,在训练数据构建过程中,采样更多的候选生成以及使用更大的验证预算,能够产生更高质量的自筛选数据,进而获得更好的推理模型。
研究团队在多个规模的Qwen3模型上应用了SVD方法,并取得了显著成果。以Qwen3-4B为例,该方法在数学基准(AIME26和HMMT)上使pass@1提升了16.7个百分点,在科学基准(GPQA Diamond和HLE)上提升了11.1个百分点,在编程基准(LCBv5和LCBv6)上提升了8.3个百分点。此外,0.6B和8B模型同样获得了性能增益。与需要额外推理计算资源的测试时计算基线(UQ-TTC)相比,SVD在大多数设置下取得了更优的性能,且测试时仅需单次推理调用。这一结果表明,大语言模型可以秘密地成为自身的高质量合成数据管道,实现自我增强。