通過保留集選擇實現遞歸自演化智能體
研究人員提出RSEA,一種遞歸自演化智能體,通過演化壓縮的自然語言狀態來改進LLM智能體,無需更新權重。它使用嚴格的保留集選擇門,在部分基準測試上超越基線,同時防止性能崩潰。研究表明沒有普遍最優的工件,並警告無保護的上下文演化的風險。
大型語言模型(LLM)智能體正在通過演化自然語言工件(如反思、工作流、手冊、速查表或優化提示)來改進,而無需更新權重。然而,這些方法通常僅在單個基準測試上表現良好,缺乏全面的比較。為了解決這一問題,研究者引入了遞歸自演化智能體(RSEA),它攜帶一個緊湊的三層自然語言狀態:命令式策略、可複用技能和程序手冊。在世代演化中,RSEA從自身軌跡重寫所有三層,並僅當候選在不相交的保留集上不退化時才提交,使用嚴格的“保持更好”門。
在四個多樣化基準測試(ALFWorld、GAIA、τ-bench和WebShop)上,與六個忠實基線(ReAct、Reflexion、GEPA、AWM、ACE和Dynamic Cheatsheet)相比,所有方法均使用同一共享本地骨幹模型,研究者發現了三個主要結果。首先,沒有工件普遍獲勝。RSEA是ALFWorld上最強的單次方法,達到69.3%,而ReAct為64.6%(McNemar p=0.015),通過重試達到79.4%,為總體最佳。然而,具體工作流歸納(由AWM代表)在強骨幹工具使用任務上表現最佳。其次,無保護的上下文演化具有高方差且不安全。Dynamic Cheatsheet在線整理上下文而無保留集門,在ALFWorld上接近最佳(70.7%),但在WebShop上崩潰,得分0.14,而ReAct為0.43。第三,RSEA嚴格的保留集選擇使得遞歸自演化具有單調安全性:它在任何基準測試上都不會顯著低於基礎智能體,並在演化的上下文有害時回退到普通ReAct。
值得注意的是,在GAIA和τ-bench上,RSEA的表現與ReAct相當,沒有顯著退化,而其他方法如GEPA和ACE在某些任務上出現波動。RSEA的保留集機制確保了每次演化步都是安全的,即使演化效果不佳,也能回退到原始策略。這種機制類似於機器學習中的驗證集早停,對於在線學習場景尤其重要。此外,研究者還分析了不同演化代際的性能變化,發現RSEA在多數情況下能夠在幾代內收斂到穩定性能。本研究為LLM智能體的自動化改進提供了一條安全路徑。
總體而言,RSEA提供了一種可靠的方法來改進性能,同時避免性能崩潰的風險。它強調了保留集驗證在LLM智能體演化中的重要性,併為未來研究奠定了基礎。開發者可以根據任務需求選擇不同的演化策略,但RSEA的保單調安全特性使其成為通用且安全的默認選項。