Supersede:診斷和訓練LLM智慧體中的記憶更新差距
大型語言模型(LLM)智慧體在長期多會話互動中需要更新事實,但現有記憶系統存在顯著缺陷。研究發現,即使是最先進的模型(如gpt-5.4),在替換為有界自維護記憶後,準確率從92%下降到77%。這種差距並非由模型規模或記憶容量引起,而是隨對話長度增加而惡化。研究者釋出了Supersede,一個基於強化學習的開源訓練環境,透過獎勵當前事實和懲罰過時事實來訓練智慧體。對Qwen2.5-3B模型進行GRPO微調,使真實對話中的更新準確率從9.0%提升至16.7%。
大型語言模型(LLM)智慧體在長期、多會話互動中需要處理不斷變化的事實,例如使用者搬家、價格更新或計劃修改。正確的行為要求使用事實的當前值並丟棄已被取代的值。然而,現有記憶系統在這一能力上存在顯著缺陷。
在一項新研究中,研究者透過真實對話資料隔離了這一能力,並證明其是一個獨立且未解決的失敗模式。在LongMemEval資料集的知識更新子集上,將智慧體的完整上下文替換為有界自維護記憶後,即使是最前沿的模型(如gpt-5.4)的準確率也從92%驟降至77%。該差距具有統計顯著性(配對McNemar檢驗p<0.005),並且隨著模型規模擴大而持續存在,而全上下文準確率則穩定在92%附近。這表明瓶頸在於記憶維護而非理解能力,並且無法透過更強的模型來彌補。
研究者進一步探討了該問題是否僅僅由記憶容量不足引起,結果是否定的。當對話長度增加24倍時,準確率從68%進一步下降至28%。即使為智慧體提供比例更大的記憶,也未觀察到任何恢復(28%對28%,n=25)。失敗與對話長度相關,而非壓縮比。
為了應對這一挑戰,研究者釋出了Supersede——一個基於verifiers/prime-rl棧的開放式強化學習環境。該環境將測量結果轉化為訓練訊號:智慧體根據當前值回答問題獲得獎勵,而使用過時值則受到懲罰。研究最終閉環驗證了該差距是可訓練的:透過在Supersede環境中對小型開放模型Qwen2.5-3B進行GRPO微調,其在真實未見對話中的保持更新準確率幾乎翻倍(從9.0%提升至16.7%,單次執行)。單調的檢查點曲線表明,所習得的策略而非訓練框架帶來了增益。
據研究者所知,這是首個以時間事實貨幣化為獎勵目標的訓練環境,也是首次證明更新差距不僅可以被測量,還能被訓練縮小。