AI News HubLIVE
サイト内リライト4 分で読了

Qwen元責任者が語るハイブリッド思考の誤り ― そして今エージェントを支持する理由

元QwenテクニカルリーダーのJunyang Lin氏は、Qwen3のハイブリッド思考モードを批判し、エージェント思考への移行を提唱しています。思考モードと非思考モードの融合の困難さ、エージェント強化学習に必要な分離インフラと高品質環境、報酬ハッキングのリスクについて解説します。

ソースMarkTechPost著者: Michal Sutter

Junyang Lin氏は、アリババのQwenプロジェクトのテクニカルリーダーでした。2026年3月3日に退任を発表し、現在は個人サイトで独立研究者として活動しています。「Qwen: 汎用モデル/エージェントを目指して」と題した講演では、Qwenモデルファミリーを概観し、「モデルのトレーニングからエージェントのトレーニングへ」という一文で締めくくりました。その後、独立研究者としてその一文を詳細なブログ記事に発展させました。本記事では、講演とブログ記事を合わせて読み解きます。

講演では、QwQ-32B、Qwen2.5-Max、Qwen3、Qwen2.5-VL、Qwen2.5-Omniなど、Qwenモデルファミリーを網羅的に紹介。各モデルはDeepSeek-R1、Grok 3 Beta、Gemini 2.5 Pro、OpenAI oシリーズなどのベンチマークと比較されました。特にQwen3では、ステップバイステップの推論を行う思考モードと、ほぼ瞬時に応答する非思考モードのハイブリッド思考を強調。さらに、呼び出し側が推論の深さを制限できる動的思考予算を導入しました。Qwen3の多言語サポートは29言語から119言語・方言に拡大。

講演ではQwen3のアーキテクチャ表も提示され、0.6Bから235Bパラメータまでの高密度モデルとMoEモデル、GGUF、GPTQ、AWQ、MLXなどの量子化フォーマットがApache 2.0ライセンスで提供されました。デモではWeb開発とディープリサーチの2つを実施。最後の「将来の作業」スライドはエージェントに焦点を当て、事前学習の拡大、環境フィードバックを用いた強化学習、より長いコンテキスト、より多くのモダリティを挙げました。

Lin氏はハイブリッド思考の実装がなぜ困難だったかを説明。思考モードと指導モードは相反する方向に引っ張られます。強い指導モデルは直接性、簡潔性、低レイテンシで報酬を得ますが、強い思考モデルは難しい問題により多くのトークンを費やすことで報酬を得ます。両者を不注意にマージすると、両方の性能が低下します。Qwen3では、長い思考連鎖のコールドスタート、推論RL、思考モード融合ステップを含む4段階の後処理パイプラインでマージを試みましたが、後のバリアント(2507ライン)ではInstructとThinkingのバリアントを再分離しました。Lin氏はこれをモデル問題というよりデータ問題と捉えています。Anthropic社のClaude 3.7 Sonnet(ハイブリッドモデル)やClaude 4(推論とツール使用のインターリーブ)を有益な修正例として挙げ、長い推論トレースがモデルを賢くするわけではなく、思考はベンチマークではなく対象ワークロードに応じて形成されるべきと述べました。

Lin氏は「推論思考」から「エージェント思考」への移行を強調。推論思考(o1やDeepSeek-R1に代表される)は、RLに決定論的で検証可能な報酬(数学、コード、論理)が必要であることを示し、RLを大規模ロールアウトと検証のシステム問題に変えました。次の時代はエージェント思考、すなわち行動するための思考です。エージェントは計画を立案し、いつ行動するか決定し、ツールを使用し、環境フィードバックを読み取り、修正します。これは長い内部独白ではなく、世界との閉ループ相互作用によって定義されます。

Lin氏はエージェント思考が処理すべき要素を列挙:思考を停止して行動に移すタイミングの決定、呼び出すツールとその順序の選択、環境からのノイズや部分的な観測の取り込み、失敗後の計画修正、多数のターンとツール呼び出しにわたる一貫性の維持。最適化目標も変化します。推論思考では内部熟考の質で判断され、報酬は検証可能な答え、訓練対象はモデル、インフラボトルネックはロールアウトと検証、主な失敗モードは冗長で価値の低い推論トレースです。エージェント思考では、行動中の進捗で判断され、報酬はインタラクティブ環境でのタスク成功、訓練対象はモデルとその環境(ハーネス)、インフラボトルネックはツールサーバー、サンドボックス、訓練と推論の分離、主な失敗モードはツールアクセスと環境リークによる報酬ハッキングです。

具体的なユースケースとして、コーディングエージェントでは、推論モデルがスタックトレースから1つのパッチを生成するのに対し、エージェントシステムはテストハーネスを実行し、実際のエラーを読み、修正して再実行します。ディープリサーチでは、推論モデルが記憶から長い回答を書くのに対し、エージェントシステムは質問をサブクエリに分解し、検索を呼び出し、弱いソースを除外し、引用付きの回答を返します。マルチエージェントオーケストレーションでは、オーケストレーターが計画し作業をルーティングし、専門サブエージェントが狭いタスクを実行してコンテキスト汚染を制御します。

Lin氏は講演でコード例を用いてQwen3の思考切り替えを説明。enable_thinkingフラグがチャットテンプレートでモードを切り替え、デフォルトは有効で、出力は<think>...</think>ブロックに推論をラップします。ユーザーターンごとに/thinkまたは/no_thinkを追加することでメッセージ単位の切り替えも可能で、動的思考予算はこれを基盤としています。

インフラ面では、エージェントRLの方が推論RLより難しいと強調。推論RLのロールアウトはほとんどの場合、自己完結型の軌跡とクリーンな評価器で行えます。一方、エージェントRLではポリシーがツールサーバー、ブラウザ、ターミナル、サンドボックスからなるハーネス内で動作します。そのため、トレーニングと推論を明確に分離する必要があり、分離しないとロールアウトスループットが低下します。コーディングエージェントがライブテスト実行を待つ間、推論がブロックされトレーニングが飢餓状態になり、GPU利用効率が推論RLよりも大幅に低下します。Lin氏は、SFT時代にはチームがデータ多様性を最適化したのに対し、エージェント時代には環境品質(安定性、現実性、カバレッジ、悪用耐性)を最適化すべきと主張。ツールアクセスが攻撃面を拡大するため、報酬ハッキングが最大の課題としています。

主要なポイント:Junyang Lin氏は2026年3月3日にQwenを離れ、独立研究者として発信。講演の核心的な主張は、分野がモデルのトレーニングからエージェントのトレーニングへ移行していること。エージェント思考は内部熟考ではなく、環境内での持続的な行動で評価される。エージェントRLには分離された訓練-推論インフラと高品質な環境が必要であり、検証可能な報酬だけでは不十分。モデルが実際のツールアクセスを得ると、報酬ハッキングが中心的なリスクとなる。