2026-06-19站内改写3 分钟阅读更新: 2026-06-19

VibeThinker-3B：基于Qwen2.5-Coder-3B与频谱到信号后训练流水线的3B密集推理模型

VibeThinker-3B是一个仅30亿参数的开源推理模型，在可验证基准测试中匹配DeepSeek V3.2和Kimi K2.5等千亿级模型。它采用频谱到信号后训练流水线，通过监督微调、强化学习和自蒸馏实现高效推理，并引入测试时缩放方法CLR进一步提升性能。

来源MarkTechPost作者: Asif Razzaq

近年来，AI推理领域的突破大多依赖巨大的参数量来跨越复杂的认知门槛，但VibeThinker-3B走出了一条截然不同的道路。这款来自新浪微博（中国）研究团队的30亿参数模型证明，效率可以在远超其规模的水平上发挥作用。该模型以MIT开源许可证发布，在数学、编程和STEM等可验证任务上，性能可与比其大数百倍的模型相媲美。

VibeThinker-3B是一个基于Qwen2.5-Coder-3B基础构建的紧凑型密集模型。它并非从零预训练，而是通过后训练完成：研究团队应用了监督微调、强化学习和自蒸馏。训练框架延续了早期VibeThinker-1.5B的“频谱到信号原则”（SSP）。SFT（监督微调）构建了一个宽泛的合理推理路径空间，即“频谱”；随后RL（强化学习）放大正确的路径，即“信号”。

该模型专注于一项任务：在可验证答案的推理场景中发挥作用。研究团队建议在开放领域知识任务中使用更大的通用模型，VibeThinker-3B本质上是一个专家模型。它可在标准技术栈上运行：模型权重需要transformers>=4.54.0，推荐使用vLLM==0.10.1或SGLang>=0.4.9.post6进行快速推理。BF16权重约6GB，单个GPU即可满足。

在基准测试方面，VibeThinker-3B在AIME26上得分94.3，根据研究论文，这与DeepSeek V3.2（671B）和Kimi K2.5（1T）相当。在LiveCodeBench v6上达到80.2 Pass@1；在OJBecnch（另一个代码基准）上得分38.6，低于最大模型；在HMMT25上得分89.3；在BruMO25上得分93.8；在包含400道IMO级别题目的IMO-AnswerBench上得分76.4。与更大推理模型的对比表显示，在可验证数学和代码上，这个3B模型位于最高集群附近，但在知识密集型基准GPQA-Diamond上与大型模型的差距明显。

研究团队还进行了一项分布外编码测试，使用2026年4月25日至5月31日期间的LeetCode周赛和双周赛。模型在128次首次尝试的Python提交中通过了123次，通过率达96.1%。

后训练流水线分为四个阶段，每个阶段针对小型推理模型的不同弱点。首先是基于课程的两阶段SFT：第一阶段涵盖数学、代码、STEM、对话和指令遵循；第二阶段转向更困难、更长推理范围的样本，通过推理长度和难度进行过滤。多样性探索蒸馏在两个阶段中保留多种有效解决方案。

第二阶段是多领域推理RL。研究团队复用了最大熵引导策略优化（MGPO），该算法对接近模型当前能力边界的提示赋予更高权重。训练按数学、代码、STEM顺序依次进行。值得注意的是，VibeThinker-3B放弃了渐进式上下文扩展，因为研究团队发现高截断预热在此规模下会损害长推理能力。因此RL全程使用单一的64K长上下文窗口。数学RL阶段还包含一个“长到短”阶段，在正确轨迹中按长度重新分配奖励：更短的正确答案获得更高奖励，更长的则降低奖励，群体均值保持不变。目标是在不损失准确性的前提下减少冗余令牌。

第三阶段，离线自蒸馏将RL检查点合并回单个学生模型。第四阶段，指令RL改善指令遵循能力，这解释了93.4 IFEval和74.5 IFBench的得分——表明推理微调并未破坏可控性。

CLR（声明级可靠性评估）是该报告中的测试时缩放方法，适用于可验证答案的任务，且不增加参数。流程包括两个步骤：模型首先为每个问题生成K=32条轨迹，每条轨迹提取M=5个决策相关声明加最终答案；然后模型作为自己的验证器，对每个声明进行验证或反驳，产生二元判定。CLR将这些映射为一个非线性轨迹可靠性分数，一个弱声明会显著降低权重。答案按等价性聚类，选择可靠性加权最高的答案。完整流程运行8次，取平均Pass@1。CLR将AIME26提升至97.1，BruMO25提升至99.2。

研究团队将VibeThinker-3B定位为专家模型，因此其用例遵循可验证推理的边界。包括：竞赛数学辅导（解决AIME和HMMT风格问题，生成完整推理链）、算法编程辅助（96.1%的LeetCode通过率表明强大的一次性Python生成能力）、成本敏感的RL或智能体后端（3B模型服务成本低，可将许多可验证子任务路由至此）、以及设备端推理（BF16权重适应消费级GPU）。

快速上手：使用vLLM服务可暴露兼容OpenAI的端点；直接Transformers用法需注意设置较高的最大生成令牌数（max_new_tokens=102400），因为模型会生成长推理轨迹。

总之，VibeThinker-3B是一个3B密集模型，MIT许可证，基于Qwen2.5-Coder-3B，专用于可验证推理。它在AIME26上得分94.3，与DeepSeek V3.2（671B）和Kimi K2.5（1T）相当。CLR测试时缩放将AIME26提升至97.1，BruMO25提升至99.2，且参数零增长。在未见过的LeetCode竞赛中，首次尝试Python提交通过123/128（96.1%）。其主要局限在于知识密集型任务上仍落后于大模型。