AI News HubLIVE
サイト内リライト2 分で読了

標準LLMを超えて

本稿では、従来の自己回帰型デコーダーTransformerに代わる大規模言語モデルの代替アーキテクチャを探ります。線形注意ハイブリッド、テキスト拡散モデル、コードワールドモデル、小型再帰Transformerを紹介し、効率性、推論能力、モデリング性能における利点と限界を分析します。

ソースAhead of AI (Sebastian Raschka)著者: Sebastian Raschka, PhD

DeepSeek R1からMiniMax-M2に至るまで、現在最も強力なオープンウェイト大規模言語モデル(LLM)は、依然として自己回帰型デコーダーTransformerであり、元のマルチヘッド注意機構の変種に基づいています。しかし近年、テキスト拡散モデルや線形注意ハイブリッドなど、標準的なLLMに代わる手法が登場しています。本稿では、4つの主要な代替方向を詳しく解説します。

線形注意ハイブリッド:従来の注意機構は入力トークン数に対して二次の計算複雑性を持ちます。線形注意変種はカーネル関数近似やゲート機構(Gated DeltaNetなど)を用いて複雑性を線形に低減し、混合アーキテクチャ(Qwen3-NextやKimi Linearでは線形層と全注意層を3:1の比率で交互配置)を採用します。Gated DeltaNetは循環状態更新(RNNに類似)により明示的な注意行列を回避し、α(減衰ゲート)とβ(更新ゲート)で記憶を制御します。これによりKVキャッシュがコンテキスト長に依存しなくなり、Kimi Linearは75%のKVキャッシュ削減と最大6倍のデコードスループットを実現します。しかしMiniMax M2は線形注意が推論タスクで精度不足を生じるとして通常注意に戻り、この方向には課題が残ります。

テキスト拡散モデル:画像拡散に着想を得て、テキスト拡散モデルはマスクトークンを段階的に除去することで全トークンを並列生成します。LLaDAはLLaMAアーキテクチャから因果マスクを除去し、拡散目的関数で訓練されます。理論的には長いシーケンスの生成で効率的ですが、ParallelBench研究は並列デコードが不自然な出力(例:「New City」)を生む可能性や、低ステップ数での品質劣化を指摘しています。また、ツールチェーンとの統合が難しいという欠点があります。GoogleのGemini Diffusionは速度向上を謳いますが、性能はGemini 2.0 Flash-Liteと同等であり、まだ広く採用されていません。

コードワールドモデル(CWM):CWMは世界モデルをコード領域に初めて適用したモデルで、コード実行のトレースを学習して変数状態の変化を予測します。32Bパラメータの高密度デコーダーTransformerで、131Kトークンのコンテキストをサポートし、事前訓練、中期訓練(世界モデリング導入)、SFT、RLの段階を経ます。SWE-benchではgpt-oss-20bと同等、テスト時スケーリング(best@k戦略)を使用すると4倍大きいgpt-oss-120bを凌駕します。CWMは推論時も自己回帰的に生成しますが、出力には構造化された実行トレースが含まれ、世界モデル拡張型LLMと言えます。

小型再帰Transformer:Hierarchical Reasoning Model(HRM)とTiny Recursive Model(TRM)は、非常に小さいモデルでも推論タスクで優れた性能を発揮できることを示しています。HRMは4ブロックのTransformerのみで、再帰的に回答を洗練しARCチャレンジでトップに立ちました。TRMはさらに小さく、700万パラメータ(HRMの4分の1)で、単一の2層Transformerを使用し、潜在状態と回答を交互に更新し、二値クロスエントロピー損失で停止条件を学習します。TRMは現在グリッド入力(数独や迷路)を扱いますが、その再帰的推論メカニズムは言語推論への応用が期待されます。

まとめると、各代替手法は効率性、性能、推論能力のいずれかでトレードオフを持ちます。線形注意ハイブリッドとコードワールドモデルは実用的な可能性を示す一方、テキスト拡散モデルと小型再帰モデルは新しい研究の方向性を提供します。将来的には、注意ハイブリッドの長文安定性向上、拡散モデルのエッジデバイス活用、世界モデルの他領域への拡張、再帰パラダイムの軽量推論への応用が期待されます。