AI News HubLIVE
站内改写2 分で読了

LANTERN: 長期コンテキストLLM会話のための階層型アーカイブおよび時間的エピソディック検索ネットワーク

LANTERNは、ゼロLLMコールで低レイテンシのハイブリッド検索により、会話履歴圧縮後に詳細を復元する軽量メモリ層です。実験では、LANTERNが失われた事実の回復においてMemGPTを上回り、汎用LLMの精度を平均8.4パーセントポイント向上させました。

ソースarXiv Computational Linguistics著者: Rahul Subramani

大規模言語モデル(LLM)は、会話履歴を有限なコンテキストウィンドウに収めるために圧縮する際、重要な詳細を破棄してしまい、その後の応答で事実誤認が生じることがあります。この問題に対処するため、研究チームはLANTERN(Layered Archival and Temporal Episodic Retrieval Network)を提案しました。これは、すべての会話ターンを積極的にアーカイブし、圧縮後にハイブリッド検索によって関連する詳細を復元する軽量メモリ層であり、LLM呼び出しを一切必要とせず、ターンあたり25ミリ秒未満のレイテンシを追加するため、推論コストを大幅に削減します。

評価には、94の実際のマルチターン会話データセット(1,894のグラウンドトゥルース事実、kappa=0.81で人間検証済み)を使用しました。実験の結果、LANTERNのリランク版(LANTERN-Rerank)は、圧縮により失われた検証可能な事実の78.3%を回復し、MemGPTのLLM駆動抽出およびマルチクエリ検索パイプラインの忠実な再実装(72.4%)を有意に上回りました(Wilcoxon p<0.0001、95% CI [+3.1, +8.6] パーセンテージポイント、d=0.43)。また、推論コストはMemGPTのごく一部です。リランカーなしでも、ベースLANTERNはゼロLLM呼び出しでこのLLM駆動ベースラインに匹敵またはそれを上回りました(p=0.005)。

さらに、4つの本番LLM(GPT、Llamaなど異なるアーキテクチャを含む)がLANTERNで復元されたコンテキストを使用して事実ベースの質問に回答した場合、精度が平均8.4パーセンテージポイント向上し、各モデル個別にWilcoxon検定で有意でした(p<0.05)。これは、復元されたコンテキストが多様なモデルアーキテクチャにわたって有用であることを示しています。

再現性と将来の研究を支援するため、著者らは完全な評価フレームワーク(ペアワイズ有意性検定、失敗分析、事実タイプの層別化、圧縮ロバスト性分析を含む)を公開しています。LANTERNは、長コンテキストLLM会話に対する効率的で軽量、かつ追加のLLM呼び出しを必要としないソリューションを提供し、カスタマーサポートや仮想アシスタントなどの分野での応用が期待されます。