2026-06-16站内改写4 分で読了更新: 2026-06-16

シーケンス知識 #878：Transformerを超えて：学んだこと

本記事はTransformerの代替アーキテクチャに関するシリーズの要約であり、4つのファミリー（回帰/線形回帰モデル、状態空間モデル、テキスト拡散モデル、液体/連続時間モデル）をカバーします。また、知識蒸留に関する新シリーズの開始を発表します。

ソースTheSequence著者: Jesus Rodriguez

記事インテリジェンス

エンジニア上級

要点

自己注意機構は長いシーケンスに対して二次計算量とメモリコストがかかる。
4つの代替方向：回帰（定数メモリ）、状態空間（線形スケーリング）、テキスト拡散（並列生成）、液体（連続時間ダイナミクス）。
どの代替案も注意機構を打倒していないが、未来はハイブリッドアーキテクチャが有力。
新シリーズでは大規模教師モデルを小規模生徒モデルに圧縮する知識蒸留を深掘り。

重要な理由

このニュースが重要なのは、自己注意機構は長いシーケンスに対して二次計算量とメモリコストがかかるためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

本日は、Transformerの代替アーキテクチャに関するシリーズの要約をお届けします。

過去10年近く、AI分野の全体が一つの操作——自己注意——を中心に巨大な資金を得て構築されてきました。Transformerが勝利したのは、最もエレガントでも脳に近い設計でもなく、最高のスケーリング特性を持ち、ハードウェアの宝くじに当たったからです。各トークンが他のすべてのトークンを見て、全体がGPUグリッドにきれいにマッピングされ、並列にトレーニングできます。データ、パラメータ、計算量、コンテキストを増やしても損失曲線は協力的です。この滑らかさは稀です。深層学習の賢いアイデアのほとんどは産業化されませんが、これは達成されました。

しかし、代償は常に明らかでした。自己注意は本当に価値のあるもの——コンテキスト全体に対する完全でロスレスな想起、各トークンが他のトークンを直接アドレスでき、トレーニングパスがシーケンス全体で並列化可能——を提供します。それが利点であり、現実のものです。コストは注意がシーケンス長に対して二次関数的にスケールし、自己回帰デコードがKVキャッシュを各トークン生成ごとに線形に増加させることです。100万トークンを超えたり、70Bモデルのキャッシュが40GBのVRAMを消費する場合、O(n²)計算とO(n)メモリは単なる注釈ではなく、実際の請求書となります。したがって、興味深い質問は「Transformerは良いか？」ではありません。それらは素晴らしいです。問題は、それらが最終的なアーキテクチャか、それとも最初の真にスケーラブルなもの——やがてより豊かなものに吸収されるか、です。

これが私たちが検証しようとしたテーゼであり、8号を最も明確に読む方法は、4つのファミリーとして捉えることです。各ファミリーは注意に対して異なる賭けをしています。

第一のファミリーは回帰および線形回帰モデル——RNNの復活とxLSTMです。それらの売りは一定メモリです：常に成長するキャッシュの代わりに固定サイズの隠れ状態を持ち、シーケンスに対してO(n)計算を支払います（O(n²)ではなく）。古典的な反対意見はRNNがシリアルにトレーニングされGPUを飽和できないことでしたが、現代の変種は再帰を再構成し、トレーニング時に並列化可能で、推論時には低コストを維持します。利点は非常に効率的な生成です；未解決の課題は固定サイズの状態が注意の正確な想起に匹敵する情報を保持できるかどうかです。

第二のファミリーは状態空間モデル——SSM/Mamba系統で、最も深刻な挑戦者です。SSMはシーケンスを連続線形力学系として扱い、ほぼ魔法のような二重の形式を持ちます：トレーニング用の並列化可能な畳み込みと推論用の再帰スキャンです。線形スケーリングと長コンテキスト処理をほぼ無料で得ます。トレードオフは表現力です——純粋なSSMは正確なインコンテキストコピーや検索に苦戦する可能性があり、最強の結果は多数のSSM層に少数の注意層を挿入したハイブリッドである理由です。

第三のファミリーはテキスト拡散——左から右へのデコードを完全に放棄し、少数のノイズ除去ステップでシーケンス全体を並列に洗練する生成方法です。利点は非自己回帰速度と生成時の双方向コンテキストです；課題は自己回帰モデルの品質と制御可能性に匹敵することであり、LLaDA、Gemini Diffusion、Mercuryがこの方向に取り組んでいます。

第四のファミリーは液体および連続時間モデルで、並列ルックアップテーブルの考え方を放棄し、時間とともに連続的に進化するダイナミクスを採用し、より小さく適応的なネットワークを目指します。利点はパラメータ効率と異なる帰納的バイアスです；課題はそのストーリーをフロンティア規模にスケールすることです。

これらのいずれも注意を打倒していません。しかし、モノカルチャーは終わり、最も可能性の高い未来は明示的にハイブリッドです：正確な想起が二次コストに見合う場所で注意を使用し、他の場所では線形時間モデルを使用します。

以下が完全なシリーズの順序です：

#846 — Transformerを超えて：新シリーズ — 幕開け、arXiv上のポスト注意アーキテクチャへの明確なシフトと、自己注意に囲まれた10年を枠組みとして提示。すべての主要な代替案をマッピングする計画を提示。

#850 — RNNの予想外の復活 — 回帰ネットワークが最も見落とされた代替案であることを論じ、なぜ線形時間回帰が再び魅力的かを再検討。現代のRNN変種を遺物ではなく真剣な挑戦者として位置付け。

#854 — 王者の帰還：xLSTMアーキテクチャの展開 — 1990年代のLSTMから2017年のTransformerへの転換を経て、xLSTM（HochreiterとSchmidhuberの設計の現代的復活）までの系譜を辿る。改良されたゲートとスケーリングがxLSTMを注意ベースモデルと競争させる方法を解説。

#858 — 状態空間モデルが好奇心から真剣なTransformer競争者へ — 百万トークンコンテキストと大きなKVキャッシュでO(n²)注意ボトルネックが実際の制約となる中、SSMの台頭を描く。状態空間モデルが静かに支配的パラダイムの真のライバルに成熟したと論じる。

#862 — テキスト拡散モデルについて学ぶ — テキスト拡散を最も信頼できる非自己回帰Transformer代替案の一つとして紹介。拡散スタイルの生成が厳格な左から右への次トークン予測からどのように解放されるかをカバー。

#866 — 知っておくべき3つのテキスト拡散モデル — 実践的なフォローアップで、LLaDA、Gemini Diffusion、Mercuryの主要プレイヤーを紹介。それぞれが拡散ベースのテキスト生成をどのように実装するかを比較。

#870 — 液体モデルとポストTransformerアーキテクチャの探索 — 液体ニューラルネットワークをより有望な非Transformerアーキテクチャとして深掘り、その連続時間ダイナミクスを注意の並列ルックアップテーブルアプローチと対比。より広範な後継者探しの中に位置付け。

#874 — Transformerか否か？ — 結論編、Transformerが最終アーキテクチャか、最初の真にスケーラブルなものか、やがてより豊かなものに吸収されるかを問う。後者に傾き、シリーズがカバーした全体像を概観。

次回予告：蒸留に関する新シリーズ

前シリーズがアーキテクチャの変更についてだったなら、次は圧縮についてです。知識蒸留——大規模で高価な教師モデルの能力を小さく高速な生徒モデルに押し込む一連の技術——の深掘りを始めます。これは現代のAIで最も華やかさに欠け、最も経済的に重要なアイデアの一つです：フロンティア能力が実際にプロダクションに到達する方法です。古典的手法（ロジットマッチング、元のHinton定式化）、現代的変種（シーケンスレベル、オンポリシー、自己蒸留）、実際に転移するものとしないもの、そしてなぜあなたが実行できるほぼすべてのモデルが何らかの意味で蒸留されたものか、をカバーします。それでは最初の号でお会いしましょう。