AI News HubLIVE
站內改寫3 分鐘閱讀

LLM驅動的自主智能體

本文深入探討了以大語言模型(LLM)為核心控制器的自主智能體系統。系統包含規劃、記憶和工具使用三大組件:規劃通過任務分解和自我反思實現複雜任務處理;記憶分為短期(上下文學習)和長期(外部向量存儲);工具使用使智能體能調用外部API。文章還介紹了多個案例(如ChemCrow、生成式智能體)和概念驗證(AutoGPT、GPT-Engineer、BabyAGI),並討論了有限上下文窗口等挑戰。

自主智能體是人工智能領域一個極具前景的發展方向,而大語言模型(LLM)作為其核心控制器正展現出巨大潛力。通過將LLM與規劃、記憶和工具使用等關鍵組件相結合,這些智能體能夠完成從簡單問答到複雜科學實驗的各類任務。

規劃是智能體處理複雜任務的基礎,包含任務分解和自我反思兩個關鍵過程。任務分解通過鏈式思考(Chain of Thought, CoT)或思維樹(Tree of Thoughts, ToT)等方法將大型任務拆解為更小的子目標,使智能體能夠逐步解決問題。CoT已成為提升模型在複雜任務上性能的標準提示技術,它指示模型“一步一步思考”,利用更多測試時計算將困難任務分解為更小、更簡單的步驟。ToT進一步擴展了CoT,在每個步驟探索多種推理可能性,創建樹狀結構,並使用廣度優先或深度優先搜索來評估狀態。自我反思則允許智能體從過去的行動中學習,通過ReAct、Reflexion和鏈式事後思考(Chain of Hindsight, CoH)等框架不斷優化決策。ReAct將推理和行動整合到LLM中,通過擴展動作空間以包含任務特定的離散動作和語言空間,使模型能夠與環境交互並生成推理軌跡。Reflexion為智能體配備動態記憶和自我反思能力,使用強化學習設置,其中獎勵模型提供二元獎勵,智能體根據啓發式函數決定是否重置環境。CoH通過向模型展示一系列過去輸出及其註釋反饋,鼓勵模型改進自身輸出,類似於算法蒸餾(Algorithm Distillation)在跨回合軌跡上的應用。

記憶系統為智能體提供了持久化知識的能力。短期記憶相當於上下文學習,受限於Transformer模型的上下文窗口長度。而長期記憶則通過外部向量數據庫實現,支持最大內積搜索(MIPS)以快速檢索相關信息。MIPS常用的近似最近鄰算法包括局部敏感哈希(LSH)、隨機投影樹(ANNOY)、分層可導航小世界圖(HNSW)、Facebook AI相似度搜索(FAISS)以及可擴展最近鄰(ScaNN)。這些算法在召回率和速度之間取得平衡,使得智能體能夠從海量存儲中高效檢索相關記憶。將人腦記憶類型映射到AI系統:感覺記憶對應原始輸入的嵌入表示,短期記憶對應上下文學習,長期記憶對應外部向量存儲。

工具使用是智能體超越自身能力的關鍵。通過調用外部API,智能體可以獲取實時信息、執行代碼、訪問專有數據源等。MRKL(模塊化推理、知識和語言)架構將LLM作為路由器,將查詢分發給最合適的專家模塊,這些模塊可以是神經網絡或符號系統,如計算器、貨幣轉換器或天氣API。實驗表明,LLM在正確識別何時及如何使用工具方面仍面臨挑戰,尤其是處理口頭數學問題時。TALM和Toolformer通過微調語言模型學習使用外部工具API,根據API調用註釋是否能提升輸出質量來擴展數據集。ChatGPT插件和OpenAI API函數調用是實際應用中工具使用能力的良好示例。HuggingGPT是一個框架,使用ChatGPT作為任務規劃器,根據模型描述從HuggingFace平台選擇模型並基於執行結果生成響應,系統包括任務規劃、模型選擇、任務執行和響應生成四個階段。API-Bank是一個評估工具增強型LLM性能的基準,包含53個常用API工具、完整的工作流程和264個帶註釋的對話,評估代理在三個級別上的工具使用能力:API調用、API檢索和API規劃。

案例研究展示了這些技術的實際應用。ChemCrow是一個化學領域的智能體,結合了13個專家工具用於有機合成、藥物發現和材料設計。有趣的是,儘管基於LLM的評估認為GPT-4和ChemCrow性能相近,但專家的人工評估顯示ChemCrow大幅優於GPT-4,這表明使用LLM評估深度專業領域任務存在潛在問題。Boiko等人的研究探索了LLM賦能的科學發現代理,能夠自主設計、規劃和執行復雜科學實驗,例如開發新型抗癌藥物,但同時也揭示了與非法藥物和生物武器相關的風險。生成式智能體(Generative Agents)模擬了25個虛擬角色在沙盒環境中的生活,每個角色由LLM驅動,具備記憶流、檢索模型和反思機制。記憶流記錄所有經驗,檢索模型根據相關性、時效性和重要性提供上下文,反思機制將記憶綜合為高級推斷以指導未來行為。

概念驗證項目如AutoGPT、GPT-Engineer和BabyAGI進一步展示了LLM智能體的潛力。AutoGPT是一個實驗性開源應用,展示了大語言模型驅動自主代理的能力,包含互聯網訪問、長期記憶管理、GPT-3.5代理委託和文件輸出等功能,並通過命令列表執行多樣化任務。GPT-Engineer根據自然語言描述生成完整代碼倉庫,先進行任務澄清,然後生成包括所有代碼的文件。BabyAGI專注於任務管理和執行,構建了一個簡單的任務驅動框架。

儘管前景廣闊,當前系統仍面臨挑戰。最大的限制是有限的上下文窗口,這影響了歷史信息的包含和長期學習。系統設計必須在這種有限的通信帶寬下工作,而自我反思等機制若能擁有長或無限上下文窗口將大為受益。此外,LLM輸出的穩定性和外部工具調用的可靠性也是需要改進的方向。隨着研究的深入,這些挑戰有望逐步得到解決,LLM驅動的自主智能體將在更多領域發揮重要作用。