AI News HubLIVE
サイト内リライト1 分で読了

適応的思考:大規模言語モデルが潜在空間で考えるタイミングを認識する

Appleの機械学習研究がSonataを発表。自己整合性予測を用いて推論時の思考予算を動的に割り当て、精度を維持しながら思考トークンを20〜80%削減、または同じトークンコストで最大5%の精度向上を実現。

Appleの機械学習研究チームは2026年4月、大規模言語モデル(LLM)の推論時に思考予算を動的に割り当てる軽量手法「Sonata」(Self-Consistency-Guided Adapter for Thinking Allocation)を発表した。この手法は、自己整合性(self-consistency)を指標として使用し、クエリの複雑さに応じた最適な思考リソース配分を実現する。

自己整合性とは、複数の推論経路間の一致度を測る指標である。研究チームは、自己整合性が低いクエリほど、正しい答えに到達するためにより長い思考(チェイン・オブ・ソート)が必要であることを発見した。この洞察に基づき、Sonataはクエリのプレフィリング段階で最終層の隠れ表現から自己整合性を予測するアダプターを訓練する。このアダプターはオフラインのキャリブレーションデータセットで訓練され、タスク間で転移可能であり、推論時の計算オーバーヘッドはほぼゼロである。

実験では、Qwen3-8B、GPT-OSS-120B、Qwen3-235B-A22B、Intern-S1-miniなどのモデルを用い、AIME24、AIME25、GSM8K、MATH500、GPQAの各ベンチマークで評価を行った。結果、Sonataは同一精度を維持しながら思考トークンを20〜80%削減するか、同一トークンコストで最大5%の精度向上を達成した。さらに、Sonataは既存のCoT圧縮手法と直交して動作するため、組み合わせることでさらなる効率化が可能である。

この研究は、すべてのクエリに一律に高コストな推論を適用するのではなく、クエリの複雑さに応じて計算資源を適応的に配分することで、性能と効率のバランスを最適化する方法を提供する。論文はICLR 2026に採択され、Pingzhi Li、Bairu Hou、Yun Zhuらが執筆した。