強化智慧體:工具呼叫智慧體的推理時反饋
蘋果研究團隊提出一種在推理時將評估引入執行迴圈的方法,透過專門的評審智慧體在工具呼叫前進行預評估,從而即時糾正錯誤。實驗表明,該方法在BFCL和τ2-Bench上分別提升5.5%和7.1%,並引入了有用性-有害性指標來量化糾錯帶來的收益與風險。
蘋果機器學習研究團隊在ACL 2026的第五屆自然語言生成、評估與指標研討會上發表了一篇論文,提出了一種名為“強化智慧體”的方法,旨在透過推理時反饋提升工具呼叫智慧體的效能。傳統上,大型語言模型(LLM)的軌跡評估是在事後進行的,與執行迴圈脫節,無法即時糾正智慧體的錯誤。為了彌補這一差距,研究人員將評估移至推理時的執行迴圈中:一個專門的評審智慧體在工具呼叫執行前對臨時呼叫進行評估,從而將正規化從事後恢復轉變為主動評估和錯誤緩解。
該方法建立了一個主執行智慧體與副評審智慧體之間的清晰職責分離。然而,與任何多智慧體系統一樣,評審智慧體在糾正錯誤的同時也可能引入新錯誤。為了量化這一權衡,研究團隊引入了有用性-有害性指標:有用性衡量反饋糾正的基礎智慧體錯誤百分比,有害性衡量反饋降低的正確響應百分比。這些指標直接指導評審智慧體的設計,揭示給定模型或提示是否提供淨正面價值。
研究團隊在BFCL(單輪)和τ2-Bench(多輪狀態場景)上評估了該方法,在無關性檢測上實現了+5.5%的提升,在多輪任務上實現了+7.1%的提升。指標顯示,評審模型的選擇至關重要:推理模型o3-mini實現了3:1的效益風險比,而GPT-4o為2.1:1。透過GEPA進行自動提示最佳化額外帶來了1.5-2.8%的提升。這些結果展示了分離執行與評審的核心優勢:評審智慧體可以透過模型選擇和提示最佳化進行系統性改進,而無需重新訓練基礎智慧體。
這一方法的意義在於,它將評估從被動的事後分析轉變為主動的即時干預,使得智慧體在執行過程中能夠即時糾正錯誤,從而顯著提升工具呼叫的準確性。此外,有用性-有害性指標為多智慧體系統的評估提供了新的視角,有助於平衡糾錯收益與引入新錯誤的風險。未來,這一方法有望在更多複雜的智慧體任務中得到應用,推動工具呼叫智慧體向更可靠、更高效的方向發展。