2026-04-29 09:00 UTC+9サイト内リライト1 分で読了更新: 2026-06-27 09:25 UTC+9

適応的思考：大規模言語モデルが潜在空間で考えるタイミングを認識する

Appleの機械学習研究がSonataを発表。自己整合性予測を用いて推論時の思考予算を動的に割り当て、精度を維持しながら思考トークンを20〜80%削減、または同じトークンコストで最大5%の精度向上を実現。

ソースApple Machine Learning Research

記事インテリジェンス

エンジニア上級

要点

自己整合性を拡張思考が必要な場合の代理指標として利用。
Sonataという軽量アダプターを提案。クエリのプレフィリング段階で自己整合性を予測し、思考予算を動的に割り当てる。
実験では、精度を維持しながら思考トークンを20〜80%削減、または同じトークンコストで最大5%の精度向上を達成。
Sonataは既存のCoT圧縮手法と直交しており、さらなる効率化が可能。

重要な理由

このニュースが重要なのは、自己整合性を拡張思考が必要な場合の代理指標として利用ためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

このパネルは AI が生成し、正確性を確認済みです。

Appleの機械学習研究チームは2026年4月、大規模言語モデル（LLM）の推論時に思考予算を動的に割り当てる軽量手法「Sonata」（Self-Consistency-Guided Adapter for Thinking Allocation）を発表した。この手法は、自己整合性（self-consistency）を指標として使用し、クエリの複雑さに応じた最適な思考リソース配分を実現する。

自己整合性とは、複数の推論経路間の一致度を測る指標である。研究チームは、自己整合性が低いクエリほど、正しい答えに到達するためにより長い思考（チェイン・オブ・ソート）が必要であることを発見した。この洞察に基づき、Sonataはクエリのプレフィリング段階で最終層の隠れ表現から自己整合性を予測するアダプターを訓練する。このアダプターはオフラインのキャリブレーションデータセットで訓練され、タスク間で転移可能であり、推論時の計算オーバーヘッドはほぼゼロである。

実験では、Qwen3-8B、GPT-OSS-120B、Qwen3-235B-A22B、Intern-S1-miniなどのモデルを用い、AIME24、AIME25、GSM8K、MATH500、GPQAの各ベンチマークで評価を行った。結果、Sonataは同一精度を維持しながら思考トークンを20〜80%削減するか、同一トークンコストで最大5%の精度向上を達成した。さらに、Sonataは既存のCoT圧縮手法と直交して動作するため、組み合わせることでさらなる効率化が可能である。

この研究は、すべてのクエリに一律に高コストな推論を適用するのではなく、クエリの複雑さに応じて計算資源を適応的に配分することで、性能と効率のバランスを最適化する方法を提供する。論文はICLR 2026に採択され、Pingzhi Li、Bairu Hou、Yun Zhuらが執筆した。