LaDiR:潜在拡散がLLMのテキスト推論を強化する
LaDiRはVAEと潜在拡散モデルを組み合わせ、ブロック単位の双方向注意機構により推論軌跡の反復的洗練を実現し、数学推論および計画ベンチマークで精度、多様性、解釈可能性を向上させる。
大規模言語モデル(LLM)は思考連鎖(Chain-of-Thought, CoT)生成を通じて推論能力を示す。しかし、従来の自己回帰デコーディングには固有の問題がある。モデルは各トークンを生成する際に以前のトークンにのみ依存し、初期の推論ステップを全体的に再検討・修正することができず、推論プロセスが柔軟性に欠け、多様な解の効率的な探索が困難である。この問題に対処するため、Apple機械学習研究チームはカリフォルニア大学サンディエゴ校と共同で、LaDiR(Latent Diffusion Reasoner)を提案した。LaDiRは連続潜在表現の表現力と潜在拡散モデルの反復的洗練能力を既存のLLMに統合する新しい推論フレームワークである。
LaDiRの核心は2段階からなる。まず、変分オートエンコーダ(VAE)を用いて構造化された潜在推論空間を構築する。VAEはテキスト推論ステップを「思考ブロック」(thought blocks)トークンにエンコードし、セマンティック情報と解釈可能性を保持しつつ、コンパクトで表現力豊かな表現を提供する。次に、潜在拡散モデルを使用して、これらの潜在思考ブロックのノイズ除去を学習する。このモデルはブロック単位の双方向注意マスクを採用し、より長いホライズンでの推論と適応的テスト時計算による反復的洗練を可能にする。自己回帰手法とは異なり、LaDiRは複数の推論軌跡を並列生成できるため、多様な可能性を効率的に探索し、推論プロセスを全体的に計画・修正できる。
研究チームは数学推論および計画ベンチマークでLaDiRを評価した。実験結果は、LaDiRが既存の自己回帰手法、拡散ベース手法、および他の潜在推論手法よりも、精度、多様性、解釈可能性において一貫して優れていることを示した。この研究は潜在拡散を用いたテキスト推論の新しいパラダイムを明らかにし、関連論文はICLR 2026の「潜在・暗黙的思考」ワークショップ(Workshop on Latent & Implicit Thinking – Going Beyond CoT Reasoning)で採択された。LaDiRの主著者にはHaoqiang Kang、Yizhe Zhang、Nikki Lijing Kuangらが含まれ、Appleとカリフォルニア大学サンディエゴ校に所属する。この成果は、拡散モデルをLLM推論に導入する重要な一歩であり、将来のAIモデルにおける複雑な推論タスクの性能向上と効率改善に貢献することが期待される。