VibeThinker-3B:基于Qwen2.5-Coder-3B与频谱到信号后训练流水线的3B密集推理模型
VibeThinker-3B是一个仅30亿参数的开源推理模型,在可验证基准测试中匹配DeepSeek V3.2和Kimi K2.5等千亿级模型。它采用频谱到信号后训练流水线,通过监督微调、强化学习和自蒸馏实现高效推理,并引入测试时缩放方法CLR进一步提升性能。
近年来,AI推理领域的突破大多依赖巨大的参数量来跨越复杂的认知门槛,但VibeThinker-3B走出了一条截然不同的道路。这款来自新浪微博(中国)研究团队的30亿参数模型证明,效率可以在远超其规模的水平上发挥作用。该模型以MIT开源许可证发布,在数学、编程和STEM等可验证任务上,性能可与比其大数百倍的模型相媲美。
VibeThinker-3B是一个基于Qwen2.5-Coder-3B基础构建的紧凑型密集模型。它并非从零预训练,而是通过后训练完成:研究团队应用了监督微调、强化学习和自蒸馏。训练框架延续了早期VibeThinker-1.5B的“频谱到信号原则”(SSP)。SFT(监督微调)构建了一个宽泛的合理推理路径空间,即“频谱”;随后RL(强化学习)放大正确的路径,即“信号”。
该模型专注于一项任务:在可验证答案的推理场景中发挥作用。研究团队建议在开放领域知识任务中使用更大的通用模型,VibeThinker-3B本质上是一个专家模型。它可在标准技术栈上运行:模型权重需要transformers>=4.54.0,推荐使用vLLM==0.10.1或SGLang>=0.4.9.post6进行快速推理。BF16权重约6GB,单个GPU即可满足。
在基准测试方面,VibeThinker-3B在AIME26上得分94.3,根据研究论文,这与DeepSeek V3.2(671B)和Kimi K2.5(1T)相当。在LiveCodeBench v6上达到80.2 Pass@1;在OJBecnch(另一个代码基准)上得分38.6,低于最大模型;在HMMT25上得分89.3;在BruMO25上得分93.8;在包含400道IMO级别题目的IMO-AnswerBench上得分76.4。与更大推理模型的对比表显示,在可验证数学和代码上,这个3B模型位于最高集群附近,但在知识密集型基准GPQA-Diamond上与大型模型的差距明显。
研究团队还进行了一项分布外编码测试,使用2026年4月25日至5月31日期间的LeetCode周赛和双周赛。模型在128次首次尝试的Python提交中通过了123次,通过率达96.1%。
后训练流水线分为四个阶段,每个阶段针对小型推理模型的不同弱点。首先是基于课程的两阶段SFT:第一阶段涵盖数学、代码、STEM、对话和指令遵循;第二阶段转向更困难、更长推理范围的样本,通过推理长度和难度进行过滤。多样性探索蒸馏在两个阶段中保留多种有效解决方案。
第二阶段是多领域推理RL。研究团队复用了最大熵引导策略优化(MGPO),该算法对接近模型当前能力边界的提示赋予更高权重。训练按数学、代码、STEM顺序依次进行。值得注意的是,VibeThinker-3B放弃了渐进式上下文扩展,因为研究团队发现高截断预热在此规模下会损害长推理能力。因此RL全程使用单一的64K长上下文窗口。数学RL阶段还包含一个“长到短”阶段,在正确轨迹中按长度重新分配奖励:更短的正确答案获得更高奖励,更长的则降低奖励,群体均值保持不变。目标是在不损失准确性的前提下减少冗余令牌。
第三阶段,离线自蒸馏将RL检查点合并回单个学生模型。第四阶段,指令RL改善指令遵循能力,这解释了93.4 IFEval和74.5 IFBench的得分——表明推理微调并未破坏可控性。
CLR(声明级可靠性评估)是该报告中的测试时缩放方法,适用于可验证答案的任务,且不增加参数。流程包括两个步骤:模型首先为每个问题生成K=32条轨迹,每条轨迹提取M=5个决策相关声明加最终答案;然后模型作为自己的验证器,对每个声明进行验证或反驳,产生二元判定。CLR将这些映射为一个非线性轨迹可靠性分数,一个弱声明会显著降低权重。答案按等价性聚类,选择可靠性加权最高的答案。完整流程运行8次,取平均Pass@1。CLR将AIME26提升至97.1,BruMO25提升至99.2。
研究团队将VibeThinker-3B定位为专家模型,因此其用例遵循可验证推理的边界。包括:竞赛数学辅导(解决AIME和HMMT风格问题,生成完整推理链)、算法编程辅助(96.1%的LeetCode通过率表明强大的一次性Python生成能力)、成本敏感的RL或智能体后端(3B模型服务成本低,可将许多可验证子任务路由至此)、以及设备端推理(BF16权重适应消费级GPU)。
快速上手:使用vLLM服务可暴露兼容OpenAI的端点;直接Transformers用法需注意设置较高的最大生成令牌数(max_new_tokens=102400),因为模型会生成长推理轨迹。
总之,VibeThinker-3B是一个3B密集模型,MIT许可证,基于Qwen2.5-Coder-3B,专用于可验证推理。它在AIME26上得分94.3,与DeepSeek V3.2(671B)和Kimi K2.5(1T)相当。CLR测试时缩放将AIME26提升至97.1,BruMO25提升至99.2,且参数零增长。在未见过的LeetCode竞赛中,首次尝试Python提交通过123/128(96.1%)。其主要局限在于知识密集型任务上仍落后于大模型。