VibeThinker-3B:基於Qwen2.5-Coder-3B與頻譜到信號後訓練流水線的3B密集推理模型
VibeThinker-3B是一個僅30億參數的開源推理模型,在可驗證基準測試中匹配DeepSeek V3.2和Kimi K2.5等千億級模型。它採用頻譜到信號後訓練流水線,通過監督微調、強化學習和自蒸餾實現高效推理,並引入測試時縮放方法CLR進一步提升性能。
近年來,AI推理領域的突破大多依賴巨大的參數量來跨越複雜的認知門檻,但VibeThinker-3B走出了一條截然不同的道路。這款來自新浪微博(中國)研究團隊的30億參數模型證明,效率可以在遠超其規模的水平上發揮作用。該模型以MIT開源許可證發佈,在數學、編程和STEM等可驗證任務上,性能可與比其大數百倍的模型相媲美。
VibeThinker-3B是一個基於Qwen2.5-Coder-3B基礎構建的緊湊型密集模型。它並非從零預訓練,而是通過後訓練完成:研究團隊應用了監督微調、強化學習和自蒸餾。訓練框架延續了早期VibeThinker-1.5B的“頻譜到信號原則”(SSP)。SFT(監督微調)構建了一個寬泛的合理推理路徑空間,即“頻譜”;隨後RL(強化學習)放大正確的路徑,即“信號”。
該模型專注於一項任務:在可驗證答案的推理場景中發揮作用。研究團隊建議在開放領域知識任務中使用更大的通用模型,VibeThinker-3B本質上是一個專家模型。它可在標準技術棧上運行:模型權重需要transformers>=4.54.0,推薦使用vLLM==0.10.1或SGLang>=0.4.9.post6進行快速推理。BF16權重約6GB,單個GPU即可滿足。
在基準測試方面,VibeThinker-3B在AIME26上得分94.3,根據研究論文,這與DeepSeek V3.2(671B)和Kimi K2.5(1T)相當。在LiveCodeBench v6上達到80.2 Pass@1;在OJBecnch(另一個代碼基準)上得分38.6,低於最大模型;在HMMT25上得分89.3;在BruMO25上得分93.8;在包含400道IMO級別題目的IMO-AnswerBench上得分76.4。與更大推理模型的對比表顯示,在可驗證數學和代碼上,這個3B模型位於最高集羣附近,但在知識密集型基準GPQA-Diamond上與大型模型的差距明顯。
研究團隊還進行了一項分佈外編碼測試,使用2026年4月25日至5月31日期間的LeetCode周賽和雙週賽。模型在128次首次嘗試的Python提交中通過了123次,通過率達96.1%。
後訓練流水線分為四個階段,每個階段針對小型推理模型的不同弱點。首先是基於課程的兩階段SFT:第一階段涵蓋數學、代碼、STEM、對話和指令遵循;第二階段轉向更困難、更長推理範圍的樣本,通過推理長度和難度進行過濾。多樣性探索蒸餾在兩個階段中保留多種有效解決方案。
第二階段是多領域推理RL。研究團隊複用了最大熵引導策略優化(MGPO),該算法對接近模型當前能力邊界的提示賦予更高權重。訓練按數學、代碼、STEM順序依次進行。值得注意的是,VibeThinker-3B放棄了漸進式上下文擴展,因為研究團隊發現高截斷預熱在此規模下會損害長推理能力。因此RL全程使用單一的64K長上下文窗口。數學RL階段還包含一個“長到短”階段,在正確軌跡中按長度重新分配獎勵:更短的正確答案獲得更高獎勵,更長的則降低獎勵,羣體均值保持不變。目標是在不損失準確性的前提下減少冗餘令牌。
第三階段,離線自蒸餾將RL檢查點合併回單個學生模型。第四階段,指令RL改善指令遵循能力,這解釋了93.4 IFEval和74.5 IFBench的得分——表明推理微調並未破壞可控性。
CLR(聲明級可靠性評估)是該報告中的測試時縮放方法,適用於可驗證答案的任務,且不增加參數。流程包括兩個步驟:模型首先為每個問題生成K=32條軌跡,每條軌跡提取M=5個決策相關聲明加最終答案;然後模型作為自己的驗證器,對每個聲明進行驗證或反駁,產生二元判定。CLR將這些映射為一個非線性軌跡可靠性分數,一個弱聲明會顯著降低權重。答案按等價性聚類,選擇可靠性加權最高的答案。完整流程運行8次,取平均Pass@1。CLR將AIME26提升至97.1,BruMO25提升至99.2。
研究團隊將VibeThinker-3B定位為專家模型,因此其用例遵循可驗證推理的邊界。包括:競賽數學輔導(解決AIME和HMMT風格問題,生成完整推理鏈)、算法編程輔助(96.1%的LeetCode通過率表明強大的一次性Python生成能力)、成本敏感的RL或智能體後端(3B模型服務成本低,可將許多可驗證子任務路由至此)、以及設備端推理(BF16權重適應消費級GPU)。
快速上手:使用vLLM服務可暴露兼容OpenAI的端點;直接Transformers用法需注意設置較高的最大生成令牌數(max_new_tokens=102400),因為模型會生成長推理軌跡。
總之,VibeThinker-3B是一個3B密集模型,MIT許可證,基於Qwen2.5-Coder-3B,專用於可驗證推理。它在AIME26上得分94.3,與DeepSeek V3.2(671B)和Kimi K2.5(1T)相當。CLR測試時縮放將AIME26提升至97.1,BruMO25提升至99.2,且參數零增長。在未見過的LeetCode競賽中,首次嘗試Python提交通過123/128(96.1%)。其主要侷限在於知識密集型任務上仍落後於大模型。