MEMO: LLMパラメータを変更せずに新しい知識を専用メモリモデルに訓練するモジュラーフレームワーク
NUS、MIT、A*STARの研究者が提案するMEMOは、コーパス知識を独立した訓練可能なメモリモデルにエンコードするモジュラーフレームワークであり、LLMが再訓練や微調整なしで新しい知識を組み込むことを可能にします。
記事インテリジェンス
要点
- MEMOは専用メモリモデルと凍結された実行モデルを使用して、記憶と推論を分離します。
- 5段階のデータ合成パイプラインがドキュメントを反射型QAデータセットに変換し、メモリモデルを訓練します。
- MEMOはマルチホップQAベンチマークで検索ベースラインを上回り、検索ノイズに対してロバストです。
- モデルマージによる継続的知識統合をサポートし、計算コストを最大5.5倍削減します。
重要な理由
このニュースが重要なのは、MEMOは専用メモリモデルと凍結された実行モデルを使用して、記憶と推論を分離しますためです。
技術的影響
モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。
大規模言語モデル(LLM)は事前学習後、知識が固定され、世界の変化に合わせて更新することができません。完全な再訓練はコストが高く、微調整は既存の知識を劣化させるリスクがあります。検索拡張生成(RAG)は複数文書にまたがる推論が必要な場合に苦戦します。これらの課題に対して、シンガポール国立大学、MIT CSAIL、A*STAR、およびシンガポール-MIT研究技術連合(SMART)の研究チームは、MEMO(Memory as a Model)フレームワークを提案しました。
MEMOの核心は、記憶と推論を分離することです。専用のメモリモデル(MEMORY model)と実行モデル(EXECUTIVE model)の2つから構成されます。メモリモデルは小型の専用言語モデルで、対象コーパスの知識をパラメータに内化するよう訓練されます。実行モデルはメインのLLMで、凍結され、標準的な入出力インターフェースを介してのみクエリされます。実験では、メモリモデルにQwen2.5-14B-Instruct、実行モデルにQwen2.5-32B-InstructまたはGemini-3-Flashを使用。MEMOは実行モデルをブラックボックスとして扱うため、重みや出力ロジットへのアクセスが不要で、クローズドソースモデルとも互換性があります。
メモリモデルの訓練は、5段階のデータ合成パイプラインから始まります。ジェネレータモデル(実験ではQwen2.5-32B-Instruct)によって駆動され、生のドキュメントコーパスを反射型QAデータセットに変換します。ファクト抽出(明示的・暗黙的事実の並列抽出)、統合(共通コンテキストを持つQAペアの多要素ペアへのマージ)、検証と書き直し(自己完結性のチェック、不完全なペアの修正または破棄)、エンティティ顕在化(属性と関係をエンコードするQAペアの生成、逆転呪いに対処)、クロスドキュメント合成(複数文書にまたがるQAペアの構築)の5ステップです。クロスドキュメント合成が最も重要で、これを削除するとNarrativeQAの精度が24.00%から6.37%に低下します。メモリモデルは教師あり微調整(SFT)で訓練され、損失は回答トークンのみで計算されます。推論時にはソースドキュメントは提供されません。
推論時、実行モデルは構造化されたマルチターンプロトコルでメモリモデルにクエリします。3つの段階があります。段階1:グラウンディング。ユーザークエリを原子サブ質問に分解し、メモリモデルが個別に回答。段階2:エンティティ識別。グラウンディング応答に基づき、実行モデルがフォローアップサブクエリを発行し、候補エンティティを絞り込みます。段階3:回答探索と合成。確認されたエンティティに基づき、実行モデルがサポートファクトを収集し、最終回答を合成。メモリモデルの応答はコンパクトな自然言語スニペットであり、コーパスサイズに依存しないため、検索コストは文書数に比例しません(RAGとは対照的)。
実験は3つのベンチマークで行われました:BrowseComp-Plus(マルチホップ深層リサーチ)、NarrativeQA(書籍や映画脚本の談話理解)、MuSiQue(Wikipedia段落にわたる2-4ホップ推論)。ベースラインはBM25、NV-Embed-V2、HippoRAG2、Cartridges。Gemini-3-Flashを実行モデルとした場合、MEMOはNarrativeQAで53.58%(HippoRAG2は23.21%)、MuSiQueで60.20%(同57.00%)、BrowseComp-Plusで66.67%(同66.33%)を達成。実行モデルをQwen2.5-32B-Instructに変更すると、BrowseComp-Plusで54.22%、MuSiQueで48.30%。Gemini-3-Flashに切り替えると、3ベンチマークでそれぞれ12.45%、26.73%、11.90%の向上が見られ、メモリモデルの再訓練は不要でした。
MEMOは検索ノイズに対して高いロバスト性を示します。コーパスに妨害ドキュメントを追加した場合、NV-Embed-V2とHippoRAG2はBrowseComp-Plusで最大6.22%低下したのに対し、MEMOの精度変化は+0.55%で標準偏差内でした。また、研究チームは3つの異なるアーキテクチャのメモリモデル(Qwen2.5-1.5B-Instruct、Gemma3-1B-IT、LFM2.5-1.2B-Instruct)をテストし、性能がほぼ一貫していることを確認しました。これはフレームワークがメモリモデルの事前学習系統に敏感でないことを示しています。
MEMOはモデルマージによる継続的知識統合もサポートします。新しいコーパスが到着すると、独立したメモリモデルを訓練し、そのタスクベクトル(ベースモデルとのパラメータ差)を既存のメモリモデルとパラメータ空間でマージします。NarrativeQAでTIESマージ(ρ=0.3)を使用した場合、2コーパスでは完全再訓練に比べて33%の計算削減(48 GPU時間 vs 72 GPU時間)、10コーパスではマージはΘ(K)でスケールするのに対し完全再訓練はΘ(K²)であり、5.5倍の削減(240 vs 1,320 GPU時間)を達成。マージ後のモデルは完全再訓練より精度で劣るものの(Qwen2.5-32B-Instructで11.04%差、Gemini-3-Flashで19.11%差)、すべての検索ベースラインを上回っています。
MEMOは記憶をモジュール化することで、LLMの知識更新に効率的でロバスト、かつクローズドソースモデルとも互換性のあるソリューションを提供し、複数のベンチマークで顕著な優位性を示しました。このアプローチは、将来のAIシステムにおける継続的学習の新たな道を開くものです。