通过保留集选择实现递归自演化智能体
研究人员提出RSEA,一种递归自演化智能体,通过演化压缩的自然语言状态来改进LLM智能体,无需更新权重。它使用严格的保留集选择门,在部分基准测试上超越基线,同时防止性能崩溃。研究表明没有普遍最优的工件,并警告无保护的上下文演化的风险。
大型语言模型(LLM)智能体正在通过演化自然语言工件(如反思、工作流、手册、速查表或优化提示)来改进,而无需更新权重。然而,这些方法通常仅在单个基准测试上表现良好,缺乏全面的比较。为了解决这一问题,研究者引入了递归自演化智能体(RSEA),它携带一个紧凑的三层自然语言状态:命令式策略、可复用技能和程序手册。在世代演化中,RSEA从自身轨迹重写所有三层,并仅当候选在不相交的保留集上不退化时才提交,使用严格的“保持更好”门。
在四个多样化基准测试(ALFWorld、GAIA、τ-bench和WebShop)上,与六个忠实基线(ReAct、Reflexion、GEPA、AWM、ACE和Dynamic Cheatsheet)相比,所有方法均使用同一共享本地骨干模型,研究者发现了三个主要结果。首先,没有工件普遍获胜。RSEA是ALFWorld上最强的单次方法,达到69.3%,而ReAct为64.6%(McNemar p=0.015),通过重试达到79.4%,为总体最佳。然而,具体工作流归纳(由AWM代表)在强骨干工具使用任务上表现最佳。其次,无保护的上下文演化具有高方差且不安全。Dynamic Cheatsheet在线整理上下文而无保留集门,在ALFWorld上接近最佳(70.7%),但在WebShop上崩溃,得分0.14,而ReAct为0.43。第三,RSEA严格的保留集选择使得递归自演化具有单调安全性:它在任何基准测试上都不会显著低于基础智能体,并在演化的上下文有害时回退到普通ReAct。
值得注意的是,在GAIA和τ-bench上,RSEA的表现与ReAct相当,没有显著退化,而其他方法如GEPA和ACE在某些任务上出现波动。RSEA的保留集机制确保了每次演化步都是安全的,即使演化效果不佳,也能回退到原始策略。这种机制类似于机器学习中的验证集早停,对于在线学习场景尤其重要。此外,研究者还分析了不同演化代际的性能变化,发现RSEA在多数情况下能够在几代内收敛到稳定性能。本研究为LLM智能体的自动化改进提供了一条安全路径。
总体而言,RSEA提供了一种可靠的方法来改进性能,同时避免性能崩溃的风险。它强调了保留集验证在LLM智能体演化中的重要性,并为未来研究奠定了基础。开发者可以根据任务需求选择不同的演化策略,但RSEA的保单调安全特性使其成为通用且安全的默认选项。