AI News HubLIVE
サイト内リライト2 分で読了

Memora:抽象性と具体性を両立する調和のとれた記憶表現

AIエージェントは過去の対話を記憶できず、コンテキストを再読み込みする必要があります。Memoraは記憶の保存と検索を切り離すスケーラブルな記憶システムを導入し、長文コンテキストベンチマークで最先端の性能を達成しつつ、トークン消費を最大98%削減します。

ソースMicrosoft Research Blog著者: Xuchao Zhang, Molly Xia, Mayukh Das, Anson Bastos, Chetan Bansal, Saravan Rajmohan

現代のAIエージェントには根本的な欠陥があります。それは、永続的な記憶を持たないことです。対話のたびにゼロから始まり、以前のやり取りからの重要な情報を保持できません。タスクの期間が長くなるにつれて、このステートレスな特性が効率のボトルネックになります。Microsoft Researchが提案するMemoraシステムは、巧みに設計された記憶アーキテクチャによってこの問題を解決し、高い精度を維持しながら計算コストを大幅に削減します。

Memoraの中心的な革新は、記憶の内容と検索方法を分離することです。従来の方法は、生のテキストを直接保存する(断片化を招く)か、曖昧な要約に圧縮する(詳細を失う)かのいずれかでした。Memoraは各記憶に「プライマリ抽象化」(primary abstraction)と呼ばれる6〜8語のフレーズを検索エントリとして割り当て、詳細な内容は「記憶値」に保持します。さらに、「キューアンカー」(cue anchors)が補助タグとして機能し、多様なアクセス経路を提供します。この設計により、システムは効率的にインデックスを作成しつつ、完全な詳細を保持できます。

具体的な例として、ユーザーがプロジェクトのマイルストーンについて議論する場合、Memoraは「DaveとSarahが合意したProject Orionの更新スケジュール」というプライマリ抽象化を作成し、「Dave Project Orion更新」や「Project Orionプロトタイプ計画」などのキューアンカーが異なる角度からの検索を可能にします。この柔軟性により、従来の知識グラフで必要な事前定義されたエンティティ関係の制約を回避できます。

Memoraはまた、ポリシーガイド付きリトリーバーを導入し、クエリを反復的に最適化し、キューアンカーを利用して関連記憶を探索することでマルチホップ推論を実現します。LoCoMo(平均600ターンの対話)およびLongMemEval(115,000トークンのコンテキスト)のベンチマークでは、Memoraはそれぞれ86.3%と87.4%の精度を達成し、RAGやMem0などの既存手法を上回りました。効率面では、対話あたり平均344の記憶エントリを保存し(Mem0は651)、トークン消費は全コンテキスト推論と比較して最大98%削減されます。

この研究の意義はベンチマークを超えています。AIアシスタントが長期的なコラボレーションを行い、組織知識を蓄積する道を開きます。今後の研究方向としては、MemLoop(失敗から学習)、遅延記憶(記憶の決定を先延ばし)、グループ記憶(チーム間の知識共有)などがあります。コードはオープンソース化されており、ステートレスAIの終焉を共に探求するコミュニティを歓迎します。