2026-06-30 12:00 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-30 15:51 UTC+8

通過保留集選擇實現遞歸自演化智能體

研究人員提出RSEA，一種遞歸自演化智能體，通過演化壓縮的自然語言狀態來改進LLM智能體，無需更新權重。它使用嚴格的保留集選擇門，在部分基準測試上超越基線，同時防止性能崩潰。研究表明沒有普遍最優的工件，並警告無保護的上下文演化的風險。

來源arXiv AI作者: Michael Nguyen, Quoc Nguyen, Paul Vuong

文章情報

工程師進階

要點

RSEA維護三層自然語言狀態（策略、技能、程序手冊），在代際間重寫自身，僅當在保留集上不退化時才提交候選。
在四個基準測試中，RSEA在ALFWorld上達到69.3%的最佳結果，但並非普遍最優；具體工作流歸納在強骨幹工具任務上表現更好。
無保護的上下文演化（如Dynamic Cheatsheet）可能導致性能崩潰（WebShop上0.14 vs ReAct的0.43），而RSEA的保留集門確保單調安全。

為甚麼重要

這條新聞值得關注，因為RSEA維護三層自然語言狀態（策略、技能、程序手冊），在代際間重寫自身，僅當在保留集上不退化時才提交候選。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

本面板由 AI 生成，經人工審核。

大型語言模型（LLM）智能體正在通過演化自然語言工件（如反思、工作流、手冊、速查表或優化提示）來改進，而無需更新權重。然而，這些方法通常僅在單個基準測試上表現良好，缺乏全面的比較。為了解決這一問題，研究者引入了遞歸自演化智能體（RSEA），它攜帶一個緊湊的三層自然語言狀態：命令式策略、可複用技能和程序手冊。在世代演化中，RSEA從自身軌跡重寫所有三層，並僅當候選在不相交的保留集上不退化時才提交，使用嚴格的“保持更好”門。

在四個多樣化基準測試（ALFWorld、GAIA、τ-bench和WebShop）上，與六個忠實基線（ReAct、Reflexion、GEPA、AWM、ACE和Dynamic Cheatsheet）相比，所有方法均使用同一共享本地骨幹模型，研究者發現了三個主要結果。首先，沒有工件普遍獲勝。RSEA是ALFWorld上最強的單次方法，達到69.3%，而ReAct為64.6%（McNemar p=0.015），通過重試達到79.4%，為總體最佳。然而，具體工作流歸納（由AWM代表）在強骨幹工具使用任務上表現最佳。其次，無保護的上下文演化具有高方差且不安全。Dynamic Cheatsheet在線整理上下文而無保留集門，在ALFWorld上接近最佳（70.7%），但在WebShop上崩潰，得分0.14，而ReAct為0.43。第三，RSEA嚴格的保留集選擇使得遞歸自演化具有單調安全性：它在任何基準測試上都不會顯著低於基礎智能體，並在演化的上下文有害時回退到普通ReAct。

值得注意的是，在GAIA和τ-bench上，RSEA的表現與ReAct相當，沒有顯著退化，而其他方法如GEPA和ACE在某些任務上出現波動。RSEA的保留集機制確保了每次演化步都是安全的，即使演化效果不佳，也能回退到原始策略。這種機制類似於機器學習中的驗證集早停，對於在線學習場景尤其重要。此外，研究者還分析了不同演化代際的性能變化，發現RSEA在多數情況下能夠在幾代內收斂到穩定性能。本研究為LLM智能體的自動化改進提供了一條安全路徑。

總體而言，RSEA提供了一種可靠的方法來改進性能，同時避免性能崩潰的風險。它強調了保留集驗證在LLM智能體演化中的重要性，併為未來研究奠定了基礎。開發者可以根據任務需求選擇不同的演化策略，但RSEA的保單調安全特性使其成為通用且安全的默認選項。