2026-06-29 12:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-29 16:04 UTC+8

Supersede：診斷和訓練LLM智慧體中的記憶更新差距

大型語言模型（LLM）智慧體在長期多會話互動中需要更新事實，但現有記憶系統存在顯著缺陷。研究發現，即使是最先進的模型（如gpt-5.4），在替換為有界自維護記憶後，準確率從92%下降到77%。這種差距並非由模型規模或記憶容量引起，而是隨對話長度增加而惡化。研究者釋出了Supersede，一個基於強化學習的開源訓練環境，透過獎勵當前事實和懲罰過時事實來訓練智慧體。對Qwen2.5-3B模型進行GRPO微調，使真實對話中的更新準確率從9.0%提升至16.7%。

來源arXiv Computational Linguistics作者: Vedant Patel

大型語言模型（LLM）智慧體在長期、多會話互動中需要處理不斷變化的事實，例如使用者搬家、價格更新或計劃修改。正確的行為要求使用事實的當前值並丟棄已被取代的值。然而，現有記憶系統在這一能力上存在顯著缺陷。

在一項新研究中，研究者透過真實對話資料隔離了這一能力，並證明其是一個獨立且未解決的失敗模式。在LongMemEval資料集的知識更新子集上，將智慧體的完整上下文替換為有界自維護記憶後，即使是最前沿的模型（如gpt-5.4）的準確率也從92%驟降至77%。該差距具有統計顯著性（配對McNemar檢驗p<0.005），並且隨著模型規模擴大而持續存在，而全上下文準確率則穩定在92%附近。這表明瓶頸在於記憶維護而非理解能力，並且無法透過更強的模型來彌補。

研究者進一步探討了該問題是否僅僅由記憶容量不足引起，結果是否定的。當對話長度增加24倍時，準確率從68%進一步下降至28%。即使為智慧體提供比例更大的記憶，也未觀察到任何恢復（28%對28%，n=25）。失敗與對話長度相關，而非壓縮比。

為了應對這一挑戰，研究者釋出了Supersede——一個基於verifiers/prime-rl棧的開放式強化學習環境。該環境將測量結果轉化為訓練訊號：智慧體根據當前值回答問題獲得獎勵，而使用過時值則受到懲罰。研究最終閉環驗證了該差距是可訓練的：透過在Supersede環境中對小型開放模型Qwen2.5-3B進行GRPO微調，其在真實未見對話中的保持更新準確率幾乎翻倍（從9.0%提升至16.7%，單次執行）。單調的檢查點曲線表明，所習得的策略而非訓練框架帶來了增益。

據研究者所知，這是首個以時間事實貨幣化為獎勵目標的訓練環境，也是首次證明更新差距不僅可以被測量，還能被訓練縮小。