AI News HubLIVE
站内改写3 分鐘閱讀

VibeThinker-3B:基於Qwen2.5-Coder-3B與頻譜到訊號後訓練流水線的3B密集推理模型

VibeThinker-3B是一個僅30億引數的開源推理模型,在可驗證基準測試中匹配DeepSeek V3.2和Kimi K2.5等千億級模型。它採用頻譜到訊號後訓練流水線,透過監督微調、強化學習和自蒸餾實現高效推理,並引入測試時縮放方法CLR進一步提升效能。

來源MarkTechPost作者: Asif Razzaq

近年來,AI推理領域的突破大多依賴巨大的引數量來跨越複雜的認知門檻,但VibeThinker-3B走出了一條截然不同的道路。這款來自新浪微博(中國)研究團隊的30億引數模型證明,效率可以在遠超其規模的水平上發揮作用。該模型以MIT開源許可證釋出,在數學、程式設計和STEM等可驗證任務上,效能可與比其大數百倍的模型相媲美。

VibeThinker-3B是一個基於Qwen2.5-Coder-3B基礎構建的緊湊型密集模型。它並非從零預訓練,而是透過後訓練完成:研究團隊應用了監督微調、強化學習和自蒸餾。訓練框架延續了早期VibeThinker-1.5B的“頻譜到訊號原則”(SSP)。SFT(監督微調)構建了一個寬泛的合理推理路徑空間,即“頻譜”;隨後RL(強化學習)放大正確的路徑,即“訊號”。

該模型專注於一項任務:在可驗證答案的推理場景中發揮作用。研究團隊建議在開放領域知識任務中使用更大的通用模型,VibeThinker-3B本質上是一個專家模型。它可在標準技術棧上執行:模型權重需要transformers>=4.54.0,推薦使用vLLM==0.10.1或SGLang>=0.4.9.post6進行快速推理。BF16權重約6GB,單個GPU即可滿足。

在基準測試方面,VibeThinker-3B在AIME26上得分94.3,根據研究論文,這與DeepSeek V3.2(671B)和Kimi K2.5(1T)相當。在LiveCodeBench v6上達到80.2 Pass@1;在OJBecnch(另一個程式碼基準)上得分38.6,低於最大模型;在HMMT25上得分89.3;在BruMO25上得分93.8;在包含400道IMO級別題目的IMO-AnswerBench上得分76.4。與更大推理模型的對比表顯示,在可驗證數學和程式碼上,這個3B模型位於最高叢集附近,但在知識密集型基準GPQA-Diamond上與大型模型的差距明顯。

研究團隊還進行了一項分佈外編碼測試,使用2026年4月25日至5月31日期間的LeetCode周賽和雙週賽。模型在128次首次嘗試的Python提交中透過了123次,透過率達96.1%。

後訓練流水線分為四個階段,每個階段針對小型推理模型的不同弱點。首先是基於課程的兩階段SFT:第一階段涵蓋數學、程式碼、STEM、對話和指令遵循;第二階段轉向更困難、更長推理範圍的樣本,透過推理長度和難度進行過濾。多樣性探索蒸餾在兩個階段中保留多種有效解決方案。

第二階段是多領域推理RL。研究團隊複用了最大熵引導策略最佳化(MGPO),該演算法對接近模型當前能力邊界的提示賦予更高權重。訓練按數學、程式碼、STEM順序依次進行。值得注意的是,VibeThinker-3B放棄了漸進式上下文擴充套件,因為研究團隊發現高截斷預熱在此規模下會損害長推理能力。因此RL全程使用單一的64K長上下文視窗。數學RL階段還包含一個“長到短”階段,在正確軌跡中按長度重新分配獎勵:更短的正確答案獲得更高獎勵,更長的則降低獎勵,群體均值保持不變。目標是在不損失準確性的前提下減少冗餘令牌。

第三階段,離線自蒸餾將RL檢查點合併回單個學生模型。第四階段,指令RL改善指令遵循能力,這解釋了93.4 IFEval和74.5 IFBench的得分——表明推理微調並未破壞可控性。

CLR(宣告級可靠性評估)是該報告中的測試時縮放方法,適用於可驗證答案的任務,且不增加引數。流程包括兩個步驟:模型首先為每個問題生成K=32條軌跡,每條軌跡提取M=5個決策相關宣告加最終答案;然後模型作為自己的驗證器,對每個宣告進行驗證或反駁,產生二元判定。CLR將這些對映為一個非線性軌跡可靠性分數,一個弱宣告會顯著降低權重。答案按等價性聚類,選擇可靠性加權最高的答案。完整流程執行8次,取平均Pass@1。CLR將AIME26提升至97.1,BruMO25提升至99.2。

研究團隊將VibeThinker-3B定位為專家模型,因此其用例遵循可驗證推理的邊界。包括:競賽數學輔導(解決AIME和HMMT風格問題,生成完整推理鏈)、演算法程式設計輔助(96.1%的LeetCode透過率表明強大的一次性Python生成能力)、成本敏感的RL或智慧體後端(3B模型服務成本低,可將許多可驗證子任務路由至此)、以及裝置端推理(BF16權重適應消費級GPU)。

快速上手:使用vLLM服務可暴露相容OpenAI的端點;直接Transformers用法需注意設定較高的最大生成令牌數(max_new_tokens=102400),因為模型會生成長推理軌跡。

總之,VibeThinker-3B是一個3B密集模型,MIT許可證,基於Qwen2.5-Coder-3B,專用於可驗證推理。它在AIME26上得分94.3,與DeepSeek V3.2(671B)和Kimi K2.5(1T)相當。CLR測試時縮放將AIME26提升至97.1,BruMO25提升至99.2,且引數零增長。在未見過的LeetCode競賽中,首次嘗試Python提交透過123/128(96.1%)。其主要侷限在於知識密集型任務上仍落後於大模型。