2026-05-27 12:00 UTC+8站内改写2 分钟阅读更新: 2026-06-30 21:03 UTC+8

你的智能体也在老化：面向部署系统的智能体生命周期工程

一项名为AgingBench的新基准测试揭示，已部署的AI智能体会通过四种老化机制随着时间的推移而退化，需要生命周期评估和针对性修复，而不仅仅是更强的初始模型。

来源arXiv AI作者: Jianing Zhu, Yeonju Ro, John Robertson, Kevin Wang, Junbo Li, Haris Vikalo, Aditya Akella, Zhangyang Wang

长期运行的AI智能体正越来越多地被部署为持久化运行系统，例如客服助手、自主研究代理和持续监控系统。然而，这些智能体仍然像刚初始化的模型一样被评估——仅关注初始性能的基准测试忽略了一个基本的系统问题：智能体在部署后能保持可靠性多久？即使模型权重保持不变，智能体的有效状态也会因压缩交互历史、从不断增长的记忆存储中检索、更新后修订事实以及常规维护而持续变化。因此，可靠性成为完整智能体框架的生命周期属性，而不仅仅是基础模型在某一时刻的快照。

为了应对这一挑战，研究者引入了AgingBench，这是一个面向智能体生命周期工程的纵向可靠性基准。AgingBench不仅测量部署智能体是否退化，还识别退化的具体形式以及修复应该针对哪个环节。该基准将智能体老化归纳为四种机制：压缩老化（由于历史压缩导致信息丢失）、干扰老化（新旧记忆相互干扰）、修订老化（事实更新后出现不一致）和维护老化（系统维护导致状态变化）。为了诊断这些故障，AgingBench使用时间依赖图和成对反事实探针，生成针对记忆管道的写入、检索和使用阶段的诊断画像。这些画像能够精确定位记忆管道的哪个阶段出现了问题，从而指导针对性的修复。

在广泛的实验设置中，AgingBench覆盖了7个场景、14个模型、多种记忆策略，以及运行器控制和自主智能体两种模式。总共进行了约400次运行，每次运行跨越8到200个会话。结果表明，智能体老化并非一维现象：行为测试可能保持正常，而事实精度却在下降；派生状态跟踪可能在单个模型内急剧崩溃；同一个错误答案可能因为诊断画像指向不同而需要完全不同的修复方法。例如，如果诊断画像显示写入阶段存在压缩老化，那么可能需要增加历史保留或采用更精细的压缩算法；而如果问题出在检索阶段，则可能需要优化检索策略或增加索引。

这些发现具有重要意义，因为它们表明可靠智能体部署需要生命周期评估、机制级诊断和阶段针对性修复，而不仅仅是更强的初始模型。随着智能体越来越多地应用于关键领域，如医疗、金融和自动化决策，确保它们长期可靠运行变得至关重要。AgingBench为智能体生命周期工程提供了一个系统化的方法论和工具，有望推动该领域向更加成熟和可靠的方向发展。