AI News HubLIVE
站内改写2 分鐘閱讀

自適應潛體代理推理

針對大型語言模型代理在決策步驟中生成冗長文本推理的無效性,研究人員提出了自適應潛體代理推理(ALAR)框架。該框架採用雙模式機制:常規步驟使用緊湊潛體推理,僅在需要深入思考時切換到顯式鏈式思維。實驗表明,ALAR在搜尋任務中減少高達43.6%的令牌生成,在工具使用中減少84.6%,同時保持可比甚至更好的任務準確性。

來源arXiv Computational Linguistics作者: Dongwon Jung, Peng Shi, Yi Zhang, Junshan Zhang, Muhao Chen

大型推理模型透過生成擴充套件的鏈式思維(CoT)推理來提升效能,然而當這種模式應用於LLM代理時,卻顯現出顯著的效率問題。當前的多輪代理互動中,代理在每個決策步驟都會生成冗長的文本推理,且推理努力幾乎均勻分佈在所有回合中,導致令牌和計算資源的嚴重浪費。例如,在複雜的搜尋任務中,代理可能需要在每一步都詳細闡述其思考過程,即使對於簡單的查詢也是如此。這種均勻分配推理努力的方式忽略了任務內部的不均勻難度,造成了不必要的開銷。

針對這一瓶頸,研究團隊提出了一種名為自適應潛體代理推理(Adaptive Latent Agentic Reasoning,簡稱ALAR)的創新框架。ALAR採用雙模式工作機制:對於常規性、低複雜度的決策步驟,系統使用緊湊的潛體推理,即在不生成顯式文本的情況下進行內部計算;僅在遇到需要深入思考的困難決策時,才選擇性升級到顯式的鏈式思維推理。這種機制的核心在於利用代理的動作作為監督錨點來學習潛體推理,並透過最佳化策略確保在潛體推理足以完成任務時優先使用,從而保留顯式推理用於更關鍵的環節。具體而言,ALAR透過一個門控機制動態決定是否在當前步驟採用潛體推理或顯式CoT。該門控機制基於當前狀態和任務上下文,經過訓練以最小化整體令牌消耗同時保證任務成功率。

研究人員在代理搜尋和工具使用基準上對ALAR進行了廣泛測試。代理搜尋基準涉及多輪資訊檢索和答案合成,而工具使用基準要求代理呼叫多個外部API完成任務。結果顯示,與基線方法相比,ALAR在搜尋任務中減少了高達43.6%的生成令牌,在工具使用任務中減少了84.6%,同時任務準確性未出現下降,甚至在某些場景下有所提升。例如,在複雜工具組合任務中,ALAR的準確率比純CoT方法高出2-3個百分點,同時大幅降低了成本。這一結果表明,ALAR透過減少不必要的文本推理,同時保留關鍵步驟的顯式思考,有效地改善了LLM代理的準確性與效率之間的平衡。

該工作的意義在於為構建更高效的AI代理系統提供了新思路,尤其適用於需要多輪互動的複雜任務場景,如自動化搜尋、工具組合和對話系統。ALAR的潛力不僅限於論文中測試的任務,還可以擴充套件到其他需要多步決策的領域,例如機器人控制或遊戲AI。未來,研究團隊計劃進一步探索潛體推理的可解釋性及其在更廣泛智慧體應用中的潛力。此外,他們希望將ALAR整合到現有的LLM代理框架中,如ReAct或Toolformer,以提升其實際部署中的效率。總體而言,ALAR為實現更加經濟且高效的AI代理邁出了重要一步。