AI News HubLIVE
站内改写

AI代理如何工作:架構深度解析

本文深入分析了AI代理的架構,重點介紹了ReAct模式(推理與行動循環)、工具使用、記憶管理、多代理系統以及可觀測性等關鍵組件。文章指出,生產級代理系統約98.4%的代碼是基礎設施,僅1.6%是AI決策邏輯,並討論了企業採用AI代理面臨的高失敗率和評估挑戰。

文章情報

工程師進階

要點

  • AI代理的核心是ReAct模式:循環進行思考、行動、觀察,直到任務完成。
  • 生產級代理系統以基礎設施為主,AI決策邏輯僅佔極小部分。
  • 企業採用AI代理面臨集成複雜、成本高、價值不明確等問題,導致高失敗率。
  • 評估方法是當前主要瓶頸,而非模型能力。

為甚麼重要

這條新聞值得關注,因為AI代理的核心是ReAct模式:循環進行思考、行動、觀察,直到任務完成。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

AI代理(AI Agent)是當前科技領域最熱門的概念之一,但其核心架構其實相當簡潔:一個大型語言模型(LLM)與外部工具相連,在一個循環中運作——模型推理出要做什麼,調用工具,觀察結果,然後重複,直到任務完成。這個被稱為ReAct的模式,源自2022年的論文《Synergizing Reasoning and Acting in Language Models》,如今已成為所有生產級AI代理的基礎。

然而,讓代理高效工作的並非模型本身,而是圍繞它的基礎設施:如何管理跨數千次工具調用的上下文窗口,如何設計適應非確定性消費者的工具,以及如何實施安全邊界。一個廣為流傳的説法成為了這個領域的標誌性數據:Claude Code泄露的源代碼顯示,其代碼庫中僅有約1.6%是AI決策邏輯,其餘98.4%是運營基礎設施。儘管這一數字存在爭議——批評者認為它誤讀了相關論文的分類方式,且“AI邏輯”與“基礎設施”的劃分本身是一種解釋性選擇而非代碼事實——但無論確切比例如何,基本直覺是正確的:生產級代理系統的主導因素是運營工程。

代理架構已演變為幾個明確的層次:

  • **ReAct循環**(思考→行動→觀察)將推理軌跡與外部動作交錯進行,使模型能夠在與真實數據源交互的同時推斷、跟蹤和更新計劃。
  • **工具使用**將模型連接到API、文件、數據庫等其他系統。關鍵在於,工具必須專門為代理設計,即非確定性消費者,而不僅僅是封裝為API端點。
  • **記憶**分為兩種形式:短期記憶(受上下文窗口限制的上下文學習)和長期記憶(通過檢索增強生成檢索外部向量存儲)。
  • **規劃與組合模式**(編排者-工作者、評估者-優化者、並行化)使代理能夠處理複雜的多步驟任務。
  • **多代理系統**將子任務分配給專門的工作者,以指數級增長的令牌成本換取開放式問題上的巨大能力提升。
  • **可觀測性**(通過OpenTelemetry GenAI語義約定的分佈式追蹤、無限循環檢測、成本歸因和會話重放)已成為關鍵運營層。沒有它,調試非確定性代理行為幾乎不可能。

這項研究最重要的發現是,代理架構已經圍繞一套小而精的廣為人知模式收斂。框架供應商(LangChain、CrewAI、OpenAI的SDK、Anthropic的Agent SDK)之間的競爭主要在於人體工程學。真正的工程努力投入到上下文管理、工具設計和可靠性上,這些領域的頂尖從業者積累了豐富的領域知識。

第二個重要發現是,代理基準測試與現實世界性能之間的差距遠超常見假設:95%的企業AI試點項目未能帶來可衡量的投資回報率,約一半通過SWE-bench的拉取請求不會被真正維護者合併。該領域的主要瓶頸現在是評估方法,而非模型能力。

第三個發現:“代理冬天”的批評有實證支持。企業採用速度比早期炒作所暗示的更慢、更謹慎。Gartner預測到2027年,40%的代理型AI項目將被放棄,原因是“成本上升、商業價值不明確和集成複雜性”。普華永道將集成複雜性(67%)、缺乏監控(58%)和不清晰的升級路徑(52%)列為試點失敗的首要原因。

總而言之,AI代理並非魔法,而是一種精心設計的系統工程。理解其架構和權衡,對於任何希望在企業中成功部署AI代理的人來説,都至關重要。