AI News HubLIVE
站内改写2 分で読了

シークエンス・ナレッジ #870:リキッドモデルとポストTransformerアーキテクチャの探求

本稿ではTransformerアーキテクチャの限界と、低レイテンシ・プライベートなオンデバイス知能に向けた液体モデルの可能性について考察する。

ソースTheSequence著者: Jesus Rodriguez

Transformerアーキテクチャは、現代のAIにおける支配的なニューラルネットワークであるだけでなく、インテリジェンスに関するデフォルトの思考モデルとなった。その中心的なアイデアは驚くほど単純である:シーケンスを処理する際、すべての要素が他のすべての要素を参照できるようにする。ある単語は前の単語に注意を向け、コードトークンは遠くの変数に、画像パッチは別のパッチに、ツール呼び出しは数千トークン前の命令に注意を向ける。アテンションはシーケンスモデリングを、コンテキスト全体にわたる巨大な微分可能なルックアップテーブルに変える。

これはリカレント時代からの決定的な脱却だった。それ以前のモデルは、左から右へと読み進める読者のようにシーケンスを処理し、各ステップで隠れ状態を更新していた。Transformerはその時間的なプロセスを、大規模並列計算に平坦化した。過去を単一の状態に圧縮する代わりに、過去全体をモデルに露出した。これにより、訓練が容易になり、スケーリングの予測可能性が高まり、長距離関係の表現が容易になった。

しかし、すべてのアーキテクチャには物理がある。Transformerにはグローバルな相互作用の物理がある。その物理は強力だが、コストが高い。

自己アテンションはトークン同士を比較しようとする。推論時、モデルはキー・バリューキャッシュを蓄積し、新しいトークンが過去に注意を向けられるようにする。コンテキストが成長するにつれてメモリも増大する。モデルサイズが大きくなるにつれて、サービングの複雑さが増す。エージェントがより長期的で、より多くのツールを使用し、よりローカルになるにつれて、すべてを明示的に記憶するコストは無視できなくなる。

Transformerはクラウドスケールのインテリジェンスには優れたアーキテクチャだが、常時オン、低レイテンシ、プライベート、具現化、オンデバイスの知能にとって最終的なアーキテクチャであるとは言い難い。

ここで液体モデルが登場する。液体モデルは動力学的手法を用いてアテンションを代替し、時系列依存性をより効率的に処理する。微分方程式や動的システムを用いてニューロンの活動をシミュレートし、メモリ使用量を削減し、適応的推論を可能にする。このアーキテクチャは、性能を維持しながら消費電力と遅延を大幅に低減し、エッジデバイスへの展開に適している。

ポストTransformerアーキテクチャの探求は、より効率的なモデルを追求するだけでなく、リソース制約環境での高度なAI実現の可能性を開くためのものである。液体モデルはその重要な試みの一つだが、唯一ではない。状態空間モデル、線形アテンション、アテンションのスパース化など、他の研究も進んでいる。将来のAIアーキテクチャは複数のアイデアを融合し、シナリオに応じて動的に切り替わるかもしれない。