AI News HubLIVE
站内改写4 分で読了

VibeThinker-3B:Qwen2.5-Coder-3Bを基盤とし、スペクトラムからシグナルへのポストトレーニングパイプラインを採用した3Bパラメータの高密度推論モデル

VibeThinker-3Bはわずか30億パラメータのオープンソース推論モデルで、検証可能なベンチマークにおいてDeepSeek V3.2やKimi K2.5と同等の性能を発揮します。スペクトラムからシグナルへのポストトレーニングパイプライン(教師ありファインチューニング、強化学習、自己蒸留)を採用し、テスト時スケーリング手法CLRによりさらなる性能向上を実現します。

ソースMarkTechPost著者: Asif Razzaq

近年、AI推論の飛躍的な進歩は主に巨大なスケール、つまり数十億のパラメータを投入して複雑な認知の閾値を超えることで達成されてきましたが、VibeThinker-3Bはまったく異なる道を切り開いています。中国の新浪微博(Weibo)の研究者によって開発されたこの30億パラメータのモデルは、効率性が規模をはるかに超えて威力を発揮することを証明しています。MITオープンソースライセンスで公開されたVibeThinker-3Bは、数学、コーディング、STEM分野などの検証可能なタスクにおいて、数百倍のサイズのモデルと同等のパフォーマンスを達成します。

VibeThinker-3Bは、Qwen2.5-Coder-3Bベース上に構築されたコンパクトな高密度モデルです。ゼロから事前学習されたのではなく、教師ありファインチューニング、強化学習、自己蒸留を適用したポストトレーニングによって作られています。トレーニングフレームワークは、以前のVibeThinker-1.5Bからの「スペクトラムからシグナルへの原理」(SSP)を継承しています。SFT(教師ありファインチューニング)は妥当な推論経路の広い空間、すなわち「スペクトラム」を構築し、RL(強化学習)は正しい経路、すなわち「シグナル」を増幅します。

このモデルは、検証者が回答を確認できる推論という1つのジョブに特化しています。研究チームは、オープンドメインの知識タスクにはより大きな汎用モデルを推奨しており、VibeThinker-3Bは意図的に専門家モデルとして設計されています。標準的なスタックで動作し、モデル重みにはtransformers>=4.54.0が必要です。高速推論にはvLLM==0.10.1またはSGLang>=0.4.9.post6を推奨します。BF16重みは約6GBで、単一のGPUで十分です。

ベンチマークでは、VibeThinker-3BはAIME26で94.3を記録しました。研究論文によると、これはDeepSeek V3.2(671B)およびKimi K2.5(1T)に匹敵します。LiveCodeBench v6では80.2 Pass@1、別のコードベンチマークOJBecnchでは38.6(大規模モデルより低い)、HMMT25で89.3、BruMO25で93.8、IMOレベルの400問からなるIMO-AnswerBenchで76.4を記録しました。より大規模な推論モデルとの比較表では、検証可能な数学とコードにおいてこの3Bモデルはトップクラスに位置しますが、知識集約型のGPQA-Diamondでは大規模モデルとの差が顕著です。

研究チームはまた、分布外のコーディングテストとして2026年4月25日から5月31日までのLeetCode週間・隔週コンテストを使用しました。モデルは128回の初回Python提出のうち123回を成功させ、96.1%の合格率を達成しました。

ポストトレーニングパイプラインは4段階で構成され、各段階が小型推論モデルの異なる弱点をターゲットにしています。第1段階はカリキュラムベースの2段階SFTです。段階1は数学、コード、STEM、対話、指示追従を広くカバーし、段階2は推論長と難易度でフィルタリングされたより困難で長期的なサンプルに移行します。多様性探索蒸留は両段階で複数の有効な解決経路を保持します。

第2段階は多領域推論RLです。研究チームは最大エントロピー誘導型政策最適化(MGPO)を再利用し、モデルの現在の能力境界付近のプロンプトに高い重みを割り当てます。トレーニングは数学、コード、STEMの順に逐次行われます。注目すべき点として、VibeThinker-3Bはプログレッシブコンテキスト拡張を採用していません。研究チームは、このスケールでは高切り捨てウォームアップが長い推論を損なうことを発見したため、RLでは単一の64K長コンテキストウィンドウを全体を通して使用します。数学RLにはLong2Short段階も含まれ、正しい軌跡の間で長さに基づいて報酬を再分配します。短い正解はより高い報酬を得て、長いものは報酬が低下しますが、グループ平均は変わりません。目標は精度を損なわずに冗長なトークンを減らすことです。

第3段階はオフライン自己蒸留で、RLチェックポイントを1つの学生モデルに統合します。第4段階は指示RL(Instruct RL)で、指示追従能力を改善します。この段階によりIFEval 93.4、IFBench 74.5のスコアが説明され、推論チューニングが制御可能性を壊していないことが示されています。

CLR(Claim-Level Reliability Assessment)は、レポートのテスト時スケーリング手法であり、回答検証可能なタスクに適用され、パラメータを追加しません。手順は2段階です。モデルはまず問題ごとにK=32の軌跡を生成し、各軌跡からM=5の決定関連クレームと最終回答を抽出します。次にモデルは自身の検証者として機能し、各クレームを検証または反証してバイナリ判定を生成します。CLRはこれらを非線形の軌跡信頼性スコアにマッピングし、1つの弱いクレームが重みを急激に低下させます。回答は等価性でクラスタリングされ、最も信頼性の高い重み付き回答が勝利します。完全なフローを8回実行し、平均Pass@1を報告します。CLRによりAIME26が97.1、BruMO25が99.2に向上します。

研究チームはVibeThinker-3Bを専門家モデルとして位置づけており、ユースケースは検証可能な推論の境界に従います。競技数学のチュートリアル(AIMEやHMMTスタイルの問題を完全な推論チェーンで解決)、アルゴリズムコーディング支援(96.1%のLeetCode合格率は強力なワンショットPython生成を示す)、コスト重視のRLやエージェントバックエンド(3Bモデルは大規模サービスに安価)、オンデバイス推論(BF16重みはコンシューマーGPUに適合)などが含まれます。

クイックスタート:vLLMを使用したサービングはOpenAI互換のエンドポイントを公開します。直接Transformersを使用する場合、最大生成トークン数(max_new_tokens=102400)の設定が重要です。モデルは長い推論トレースを生成するため、短い上限では回答が途切れる可能性があります。

まとめると、VibeThinker-3Bは3Bパラメータの高密度モデルで、MITライセンス、Qwen2.5-Coder-3Bベース、検証可能な推論に特化しています。AIME26で94.3を記録し、DeepSeek V3.2(671B)やKimi K2.5(1T)に匹敵します。CLRテスト時スケーリングによりAIME26を97.1、BruMO25を99.2に向上させ、パラメータはゼロ増加です。未見のLeetCodeコンテストでは123/128(96.1%)の合格率を達成しました。知識集約型タスクでは大規模モデルに劣るという限界があります。