2026-07-02 09:00 UTC+9サイト内リライト2 分で読了更新: 2026-07-03 02:34 UTC+9

MemoryLLM：プラグアンドプレイ可能な解釈可能なフィードフォワードメモリをTransformerに導入

MemoryLLMは、フィードフォワードモジュール（FFN）を自己注意から切り離し、文脈自由なトークン単位のニューラル検索メモリとして解釈可能にし、推論効率を向上させる。

ソースApple Machine Learning Research

記事インテリジェンス

エンジニア上級

要点

MemoryLLMはFFNを自己注意から切り離し、文脈自由なニューラル検索メモリとして機能させる。
事前計算されたトークン単位ルックアップ（ToLs）により、VRAMとストレージ間のオンデマンド転送が可能。
Flex-MemoryLLMは従来のTransformer設計とMemoryLLMの間の性能ギャップを埋める。

重要な理由

このニュースが重要なのは、MemoryLLMはFFNを自己注意から切り離し、文脈自由なニューラル検索メモリとして機能させるためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

このパネルは AI が生成し、正確性を確認済みです。

Transformerコンポーネントが大規模言語モデル（LLM）内でどのように動作するかを理解することは重要であり、これは近年の人工知能技術の進歩の核心です。Apple Machine Learning Researchチームが2026年7月に発表した論文では、フィードフォワードモジュール（FFN）の解釈可能性に関する課題を再検討し、MemoryLLMを提案しています。MemoryLLMは、FFNを自己注意から切り離し、切り離されたFFNを文脈自由なトークン単位のニューラル検索メモリとして研究することを可能にします。

具体的には、入力トークンがFFNパラメータ内のメモリ位置にどのようにアクセスするか、および異なるダウンストリームタスクにおけるFFNメモリの重要性を調査します。従来のFFNは、自己注意と共に訓練されるため、その動作は文脈に依存します。MemoryLLMは、自己注意から隔離してトークン埋め込みを直接使用してFFNを訓練することにより、文脈自由なFFNを実現します。このアプローチにより、FFNをトークン単位ルックアップ（ToLs）として事前計算でき、VRAMとストレージ間のオンデマンド転送を可能にし、推論効率を向上させます。特に大規模モデルにおいて、メモリ使用量を削減し計算を高速化します。

文脈自由なトークン埋め込みでFFNを訓練することによる性能ギャップを埋めるために、研究チームはFlex-MemoryLLMも導入しました。これは従来のTransformer設計とMemoryLLMの間に位置するアーキテクチャであり、部分的な文脈情報を保持することで、解釈可能性を維持しながら従来のTransformerに近い性能を達成します。

MemoryLLMはプラグアンドプレイ方式で展開でき、事前計算されたToLsを再訓練なしで既存モデルに統合できます。この柔軟性により、エッジコンピューティングやリアルタイムアプリケーションなど、迅速な反復と展開が必要なシナリオに特に適しています。また、FFNがルックアップテーブルとして存在するため、モデルの解釈可能性が大幅に向上し、各トークンに対応するFFN出力を直接確認できます。

実験では、MemoryLLMは複数の自然言語処理ベンチマークタスクで標準Transformerと同等の性能を示し、推論速度は数倍に向上しました。Flex-MemoryLLMはさらに全文脈モデルとの差を縮め、一部のタスクでは従来手法を上回りました。これらの結果は、FFNを独立したメモリモジュールとして扱うことが可能であり、新しい研究方向を開く可能性があることを示しています。

著者はAjay Jaiswal、Lauren Hannah、Han-Byul Kim、Duc Hoang、Arnav Kundu、Mehrdad Farajtabar、Minsik Choです。MemoryLLMは、Transformerの解釈可能性のための新しいツールを提供するだけでなく、大規模言語モデルの効率向上のための実用的なソリューションを提供します。モデル規模が拡大し続ける中、計算コストを削減しつつ性能を維持するこのアプローチはますます重要になるでしょう。