2026-05-27 12:00 UTC+8站内改写1 分钟阅读更新: 2026-06-30 21:03 UTC+8

自验证蒸馏：你的语言模型秘密地成为自己的合成数据管道

提出自验证蒸馏（Self-Verified Distillation, SVD）方法，让大语言模型仅利用无标签提示进行自我改进，无需外部教师或工具反馈。在数学、科学和编程三个推理领域，Qwen3模型通过SVD训练后性能显著提升。

来源arXiv Computational Linguistics作者: Tony Lee, Percy Liang

近日，一篇提交至arXiv的论文提出了名为“自验证蒸馏”（Self-Verified Distillation, SVD）的新算法，旨在让大语言模型（LLMs）仅利用无标签的提示便实现自我改进，无需任何外部教师模型或工具反馈。该研究聚焦于数学、科学和编程三个推理领域，从无标签的种子问题出发，不依赖真实答案。

SVD的核心思想是让模型自己生成候选答案，然后通过一个三阶段级联验证流程进行筛选：循环一致性检查、事实性检查和正确性检查。只有通过所有阶段且获得一致判断的答案才会被接受，用于后续的训练数据集。这一想法受到UQ基准测试中使用多个验证器筛选难解问题候选答案的启发。研究团队发现，在训练数据构建过程中，采样更多的候选生成以及使用更大的验证预算，能够产生更高质量的自筛选数据，进而获得更好的推理模型。

研究团队在多个规模的Qwen3模型上应用了SVD方法，并取得了显著成果。以Qwen3-4B为例，该方法在数学基准（AIME26和HMMT）上使pass@1提升了16.7个百分点，在科学基准（GPQA Diamond和HLE）上提升了11.1个百分点，在编程基准（LCBv5和LCBv6）上提升了8.3个百分点。此外，0.6B和8B模型同样获得了性能增益。与需要额外推理计算资源的测试时计算基线（UQ-TTC）相比，SVD在大多数设置下取得了更优的性能，且测试时仅需单次推理调用。这一结果表明，大语言模型可以秘密地成为自身的高质量合成数据管道，实现自我增强。