MemoryLLM:プラグアンドプレイ可能な解釈可能なフィードフォワードメモリをTransformerに導入
MemoryLLMは、フィードフォワードモジュール(FFN)を自己注意から切り離し、文脈自由なトークン単位のニューラル検索メモリとして解釈可能にし、推論効率を向上させる。
Transformerコンポーネントが大規模言語モデル(LLM)内でどのように動作するかを理解することは重要であり、これは近年の人工知能技術の進歩の核心です。Apple Machine Learning Researchチームが2026年7月に発表した論文では、フィードフォワードモジュール(FFN)の解釈可能性に関する課題を再検討し、MemoryLLMを提案しています。MemoryLLMは、FFNを自己注意から切り離し、切り離されたFFNを文脈自由なトークン単位のニューラル検索メモリとして研究することを可能にします。
具体的には、入力トークンがFFNパラメータ内のメモリ位置にどのようにアクセスするか、および異なるダウンストリームタスクにおけるFFNメモリの重要性を調査します。従来のFFNは、自己注意と共に訓練されるため、その動作は文脈に依存します。MemoryLLMは、自己注意から隔離してトークン埋め込みを直接使用してFFNを訓練することにより、文脈自由なFFNを実現します。このアプローチにより、FFNをトークン単位ルックアップ(ToLs)として事前計算でき、VRAMとストレージ間のオンデマンド転送を可能にし、推論効率を向上させます。特に大規模モデルにおいて、メモリ使用量を削減し計算を高速化します。
文脈自由なトークン埋め込みでFFNを訓練することによる性能ギャップを埋めるために、研究チームはFlex-MemoryLLMも導入しました。これは従来のTransformer設計とMemoryLLMの間に位置するアーキテクチャであり、部分的な文脈情報を保持することで、解釈可能性を維持しながら従来のTransformerに近い性能を達成します。
MemoryLLMはプラグアンドプレイ方式で展開でき、事前計算されたToLsを再訓練なしで既存モデルに統合できます。この柔軟性により、エッジコンピューティングやリアルタイムアプリケーションなど、迅速な反復と展開が必要なシナリオに特に適しています。また、FFNがルックアップテーブルとして存在するため、モデルの解釈可能性が大幅に向上し、各トークンに対応するFFN出力を直接確認できます。
実験では、MemoryLLMは複数の自然言語処理ベンチマークタスクで標準Transformerと同等の性能を示し、推論速度は数倍に向上しました。Flex-MemoryLLMはさらに全文脈モデルとの差を縮め、一部のタスクでは従来手法を上回りました。これらの結果は、FFNを独立したメモリモジュールとして扱うことが可能であり、新しい研究方向を開く可能性があることを示しています。
著者はAjay Jaiswal、Lauren Hannah、Han-Byul Kim、Duc Hoang、Arnav Kundu、Mehrdad Farajtabar、Minsik Choです。MemoryLLMは、Transformerの解釈可能性のための新しいツールを提供するだけでなく、大規模言語モデルの効率向上のための実用的なソリューションを提供します。モデル規模が拡大し続ける中、計算コストを削減しつつ性能を維持するこのアプローチはますます重要になるでしょう。