2026-06-19站内改写3 分鐘閱讀更新: 2026-06-19

VibeThinker-3B：基於Qwen2.5-Coder-3B與頻譜到信號後訓練流水線的3B密集推理模型

VibeThinker-3B是一個僅30億參數的開源推理模型，在可驗證基準測試中匹配DeepSeek V3.2和Kimi K2.5等千億級模型。它採用頻譜到信號後訓練流水線，通過監督微調、強化學習和自蒸餾實現高效推理，並引入測試時縮放方法CLR進一步提升性能。

來源MarkTechPost作者: Asif Razzaq

近年來，AI推理領域的突破大多依賴巨大的參數量來跨越複雜的認知門檻，但VibeThinker-3B走出了一條截然不同的道路。這款來自新浪微博（中國）研究團隊的30億參數模型證明，效率可以在遠超其規模的水平上發揮作用。該模型以MIT開源許可證發佈，在數學、編程和STEM等可驗證任務上，性能可與比其大數百倍的模型相媲美。

VibeThinker-3B是一個基於Qwen2.5-Coder-3B基礎構建的緊湊型密集模型。它並非從零預訓練，而是通過後訓練完成：研究團隊應用了監督微調、強化學習和自蒸餾。訓練框架延續了早期VibeThinker-1.5B的“頻譜到信號原則”（SSP）。SFT（監督微調）構建了一個寬泛的合理推理路徑空間，即“頻譜”；隨後RL（強化學習）放大正確的路徑，即“信號”。

該模型專注於一項任務：在可驗證答案的推理場景中發揮作用。研究團隊建議在開放領域知識任務中使用更大的通用模型，VibeThinker-3B本質上是一個專家模型。它可在標準技術棧上運行：模型權重需要transformers>=4.54.0，推薦使用vLLM==0.10.1或SGLang>=0.4.9.post6進行快速推理。BF16權重約6GB，單個GPU即可滿足。

在基準測試方面，VibeThinker-3B在AIME26上得分94.3，根據研究論文，這與DeepSeek V3.2（671B）和Kimi K2.5（1T）相當。在LiveCodeBench v6上達到80.2 Pass@1；在OJBecnch（另一個代碼基準）上得分38.6，低於最大模型；在HMMT25上得分89.3；在BruMO25上得分93.8；在包含400道IMO級別題目的IMO-AnswerBench上得分76.4。與更大推理模型的對比表顯示，在可驗證數學和代碼上，這個3B模型位於最高集羣附近，但在知識密集型基準GPQA-Diamond上與大型模型的差距明顯。

研究團隊還進行了一項分佈外編碼測試，使用2026年4月25日至5月31日期間的LeetCode周賽和雙週賽。模型在128次首次嘗試的Python提交中通過了123次，通過率達96.1%。

後訓練流水線分為四個階段，每個階段針對小型推理模型的不同弱點。首先是基於課程的兩階段SFT：第一階段涵蓋數學、代碼、STEM、對話和指令遵循；第二階段轉向更困難、更長推理範圍的樣本，通過推理長度和難度進行過濾。多樣性探索蒸餾在兩個階段中保留多種有效解決方案。

第二階段是多領域推理RL。研究團隊複用了最大熵引導策略優化（MGPO），該算法對接近模型當前能力邊界的提示賦予更高權重。訓練按數學、代碼、STEM順序依次進行。值得注意的是，VibeThinker-3B放棄了漸進式上下文擴展，因為研究團隊發現高截斷預熱在此規模下會損害長推理能力。因此RL全程使用單一的64K長上下文窗口。數學RL階段還包含一個“長到短”階段，在正確軌跡中按長度重新分配獎勵：更短的正確答案獲得更高獎勵，更長的則降低獎勵，羣體均值保持不變。目標是在不損失準確性的前提下減少冗餘令牌。

第三階段，離線自蒸餾將RL檢查點合併回單個學生模型。第四階段，指令RL改善指令遵循能力，這解釋了93.4 IFEval和74.5 IFBench的得分——表明推理微調並未破壞可控性。

CLR（聲明級可靠性評估）是該報告中的測試時縮放方法，適用於可驗證答案的任務，且不增加參數。流程包括兩個步驟：模型首先為每個問題生成K=32條軌跡，每條軌跡提取M=5個決策相關聲明加最終答案；然後模型作為自己的驗證器，對每個聲明進行驗證或反駁，產生二元判定。CLR將這些映射為一個非線性軌跡可靠性分數，一個弱聲明會顯著降低權重。答案按等價性聚類，選擇可靠性加權最高的答案。完整流程運行8次，取平均Pass@1。CLR將AIME26提升至97.1，BruMO25提升至99.2。

研究團隊將VibeThinker-3B定位為專家模型，因此其用例遵循可驗證推理的邊界。包括：競賽數學輔導（解決AIME和HMMT風格問題，生成完整推理鏈）、算法編程輔助（96.1%的LeetCode通過率表明強大的一次性Python生成能力）、成本敏感的RL或智能體後端（3B模型服務成本低，可將許多可驗證子任務路由至此）、以及設備端推理（BF16權重適應消費級GPU）。

快速上手：使用vLLM服務可暴露兼容OpenAI的端點；直接Transformers用法需注意設置較高的最大生成令牌數（max_new_tokens=102400），因為模型會生成長推理軌跡。

總之，VibeThinker-3B是一個3B密集模型，MIT許可證，基於Qwen2.5-Coder-3B，專用於可驗證推理。它在AIME26上得分94.3，與DeepSeek V3.2（671B）和Kimi K2.5（1T）相當。CLR測試時縮放將AIME26提升至97.1，BruMO25提升至99.2，且參數零增長。在未見過的LeetCode競賽中，首次嘗試Python提交通過123/128（96.1%）。其主要侷限在於知識密集型任務上仍落後於大模型。