強化智能體:工具調用智能體的推理時反饋
蘋果研究團隊提出一種在推理時將評估引入執行循環的方法,通過專門的評審智能體在工具調用前進行預評估,從而實時糾正錯誤。實驗表明,該方法在BFCL和τ2-Bench上分別提升5.5%和7.1%,並引入了有用性-有害性指標來量化糾錯帶來的收益與風險。
蘋果機器學習研究團隊在ACL 2026的第五屆自然語言生成、評估與指標研討會上發表了一篇論文,提出了一種名為“強化智能體”的方法,旨在通過推理時反饋提升工具調用智能體的性能。傳統上,大型語言模型(LLM)的軌跡評估是在事後進行的,與執行循環脱節,無法實時糾正智能體的錯誤。為了彌補這一差距,研究人員將評估移至推理時的執行循環中:一個專門的評審智能體在工具調用執行前對臨時調用進行評估,從而將範式從事後恢復轉變為主動評估和錯誤緩解。
該方法建立了一個主執行智能體與副評審智能體之間的清晰職責分離。然而,與任何多智能體系統一樣,評審智能體在糾正錯誤的同時也可能引入新錯誤。為了量化這一權衡,研究團隊引入了有用性-有害性指標:有用性衡量反饋糾正的基礎智能體錯誤百分比,有害性衡量反饋降低的正確響應百分比。這些指標直接指導評審智能體的設計,揭示給定模型或提示是否提供淨正面價值。
研究團隊在BFCL(單輪)和τ2-Bench(多輪狀態場景)上評估了該方法,在無關性檢測上實現了+5.5%的提升,在多輪任務上實現了+7.1%的提升。指標顯示,評審模型的選擇至關重要:推理模型o3-mini實現了3:1的效益風險比,而GPT-4o為2.1:1。通過GEPA進行自動提示優化額外帶來了1.5-2.8%的提升。這些結果展示了分離執行與評審的核心優勢:評審智能體可以通過模型選擇和提示優化進行系統性改進,而無需重新訓練基礎智能體。
這一方法的意義在於,它將評估從被動的事後分析轉變為主動的實時干預,使得智能體在執行過程中能夠即時糾正錯誤,從而顯著提升工具調用的準確性。此外,有用性-有害性指標為多智能體系統的評估提供了新的視角,有助於平衡糾錯收益與引入新錯誤的風險。未來,這一方法有望在更多複雜的智能體任務中得到應用,推動工具調用智能體向更可靠、更高效的方向發展。