2026-06-30 12:00 UTC+8站内改写2 分钟阅读更新: 2026-06-30 15:51 UTC+8

通过保留集选择实现递归自演化智能体

研究人员提出RSEA，一种递归自演化智能体，通过演化压缩的自然语言状态来改进LLM智能体，无需更新权重。它使用严格的保留集选择门，在部分基准测试上超越基线，同时防止性能崩溃。研究表明没有普遍最优的工件，并警告无保护的上下文演化的风险。

来源arXiv AI作者: Michael Nguyen, Quoc Nguyen, Paul Vuong

文章情报

工程师进阶

要点

RSEA维护三层自然语言状态（策略、技能、程序手册），在代际间重写自身，仅当在保留集上不退化时才提交候选。
在四个基准测试中，RSEA在ALFWorld上达到69.3%的最佳结果，但并非普遍最优；具体工作流归纳在强骨干工具任务上表现更好。
无保护的上下文演化（如Dynamic Cheatsheet）可能导致性能崩溃（WebShop上0.14 vs ReAct的0.43），而RSEA的保留集门确保单调安全。

为什么重要

这条新闻值得关注，因为RSEA维护三层自然语言状态（策略、技能、程序手册），在代际间重写自身，仅当在保留集上不退化时才提交候选。

技术影响

可能影响模型选型、推理成本、产品能力和评测基准。

本面板由 AI 生成，经人工审核。

大型语言模型（LLM）智能体正在通过演化自然语言工件（如反思、工作流、手册、速查表或优化提示）来改进，而无需更新权重。然而，这些方法通常仅在单个基准测试上表现良好，缺乏全面的比较。为了解决这一问题，研究者引入了递归自演化智能体（RSEA），它携带一个紧凑的三层自然语言状态：命令式策略、可复用技能和程序手册。在世代演化中，RSEA从自身轨迹重写所有三层，并仅当候选在不相交的保留集上不退化时才提交，使用严格的“保持更好”门。

在四个多样化基准测试（ALFWorld、GAIA、τ-bench和WebShop）上，与六个忠实基线（ReAct、Reflexion、GEPA、AWM、ACE和Dynamic Cheatsheet）相比，所有方法均使用同一共享本地骨干模型，研究者发现了三个主要结果。首先，没有工件普遍获胜。RSEA是ALFWorld上最强的单次方法，达到69.3%，而ReAct为64.6%（McNemar p=0.015），通过重试达到79.4%，为总体最佳。然而，具体工作流归纳（由AWM代表）在强骨干工具使用任务上表现最佳。其次，无保护的上下文演化具有高方差且不安全。Dynamic Cheatsheet在线整理上下文而无保留集门，在ALFWorld上接近最佳（70.7%），但在WebShop上崩溃，得分0.14，而ReAct为0.43。第三，RSEA严格的保留集选择使得递归自演化具有单调安全性：它在任何基准测试上都不会显著低于基础智能体，并在演化的上下文有害时回退到普通ReAct。

值得注意的是，在GAIA和τ-bench上，RSEA的表现与ReAct相当，没有显著退化，而其他方法如GEPA和ACE在某些任务上出现波动。RSEA的保留集机制确保了每次演化步都是安全的，即使演化效果不佳，也能回退到原始策略。这种机制类似于机器学习中的验证集早停，对于在线学习场景尤其重要。此外，研究者还分析了不同演化代际的性能变化，发现RSEA在多数情况下能够在几代内收敛到稳定性能。本研究为LLM智能体的自动化改进提供了一条安全路径。

总体而言，RSEA提供了一种可靠的方法来改进性能，同时避免性能崩溃的风险。它强调了保留集验证在LLM智能体演化中的重要性，并为未来研究奠定了基础。开发者可以根据任务需求选择不同的演化策略，但RSEA的保单调安全特性使其成为通用且安全的默认选项。