2026-05-27 12:00 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

你的智慧體也在老化：面向部署系統的智慧體生命週期工程

一項名為AgingBench的新基準測試揭示，已部署的AI智慧體會透過四種老化機制隨著時間的推移而退化，需要生命週期評估和針對性修復，而不僅僅是更強的初始模型。

來源arXiv AI作者: Jianing Zhu, Yeonju Ro, John Robertson, Kevin Wang, Junbo Li, Haris Vikalo, Aditya Akella, Zhangyang Wang

長期執行的AI智慧體正越來越多地被部署為持久化執行系統，例如客服助手、自主研究代理和持續監控系統。然而，這些智慧體仍然像剛初始化的模型一樣被評估——僅關注初始效能的基準測試忽略了一個基本的系統問題：智慧體在部署後能保持可靠性多久？即使模型權重保持不變，智慧體的有效狀態也會因壓縮互動歷史、從不斷增長的記憶儲存中檢索、更新後修訂事實以及常規維護而持續變化。因此，可靠性成為完整智慧體框架的生命週期屬性，而不僅僅是基礎模型在某一時刻的快照。

為了應對這一挑戰，研究者引入了AgingBench，這是一個面向智慧體生命週期工程的縱向可靠性基準。AgingBench不僅測量部署智慧體是否退化，還識別退化的具體形式以及修復應該針對哪個環節。該基準將智慧體老化歸納為四種機制：壓縮老化（由於歷史壓縮導致資訊丟失）、干擾老化（新舊記憶相互干擾）、修訂老化（事實更新後出現不一致）和維護老化（系統維護導致狀態變化）。為了診斷這些故障，AgingBench使用時間依賴圖和成對反事實探針，生成針對記憶管道的寫入、檢索和使用階段的診斷畫像。這些畫像能夠精確定位記憶管道的哪個階段出現了問題，從而指導針對性的修復。

在廣泛的實驗設定中，AgingBench覆蓋了7個場景、14個模型、多種記憶策略，以及執行器控制和自主智慧體兩種模式。總共進行了約400次執行，每次執行跨越8到200個會話。結果表明，智慧體老化並非一維現象：行為測試可能保持正常，而事實精度卻在下降；派生狀態跟蹤可能在單個模型內急劇崩潰；同一個錯誤答案可能因為診斷畫像指向不同而需要完全不同的修復方法。例如，如果診斷畫像顯示寫入階段存在壓縮老化，那麼可能需要增加歷史保留或採用更精細的壓縮演算法；而如果問題出在檢索階段，則可能需要最佳化檢索策略或增加索引。

這些發現具有重要意義，因為它們表明可靠智慧體部署需要生命週期評估、機制級診斷和階段針對性修復，而不僅僅是更強的初始模型。隨著智慧體越來越多地應用於關鍵領域，如醫療、金融和自動化決策，確保它們長期可靠執行變得至關重要。AgingBench為智慧體生命週期工程提供了一個系統化的方法論和工具，有望推動該領域向更加成熟和可靠的方向發展。