裝備更新並不等於裝備收益:解構自進化LLM代理中的進化能力
LLM代理透過更新外部裝備(如提示、技能、記憶和工具)來適應任務,但模型的基礎任務解決能力是否能預測其裝備自我進化能力尚不明確。研究發現,裝備更新能力與基礎能力無關,而裝備收益能力則呈現非單調性:中等模型受益最大,弱模型和強模型受益較少。建議將能力預算投入任務解決代理而非進化器,並注重灌備呼叫和長程指令遵循的訓練。
大型語言模型(LLM)代理正越來越多地部署在可編輯的外部裝備之上,這些裝備包括提示詞、技能、記憶和工具,它們在不改變模型引數的前提下塑造任務執行。裝備的自我進化機制透過從執行證據中更新這些裝備來使代理適應環境。然而,一個關鍵問題仍未解決:模型在基礎任務求解中的能力是否能夠預測其在裝備自我進化中的表現?哪些模型能夠產出有用的裝備更新,而哪些模型又能真正從這些更新中受益?
為了回答這個問題,本文分析了兩種裝備自我進化能力:其一是裝備更新能力,即從執行證據中生成有用且持久的裝備更新的能力;其二是裝備收益能力,即在任務求解過程中從更新後的裝備中獲益的能力。研究透過系統的實驗揭示了兩個重要發現。
首先,裝備更新能力在不同基礎能力的模型之間表現平坦:不同能力層級的模型所生成的裝備更新帶來了驚人的相似增益。即便是較小的模型,如Qwen3.5-9B,其更新所帶來的效能提升也能與頂級模型Claude Opus 4.6相媲美。這表明,產生有效裝備更新的能力並不依賴於模型本身的規模或能力水平。
其次,裝備收益能力在基礎能力上呈現出非單調性。弱能力層級的模型從更新裝備中獲益甚微,中等能力層級的模型獲益最大,而強能力層級的模型獲益反而低於中等模型。研究將弱模型的低收益歸因於兩種失敗模式:弱模型可能無法啟用相關的裝備工件,或者雖然啟用了工件卻無法忠實地遵循其指引。
基於這些發現,該研究建議將能力預算更多地投入到任務求解代理本身而非進化器上,並在代理訓練中重點強化裝備呼叫和長程指令遵循的能力。研究團隊已將原始碼公開在GitHub上,供社群進一步探索。