AI代理如何工作:架構深度解析
本文深入分析了AI代理的架構,重點介紹了ReAct模式(推理與行動迴圈)、工具使用、記憶管理、多代理系統以及可觀測性等關鍵元件。文章指出,生產級代理系統約98.4%的程式碼是基礎設施,僅1.6%是AI決策邏輯,並討論了企業採用AI代理面臨的高失敗率和評估挑戰。
文章情報
要點
- AI代理的核心是ReAct模式:迴圈進行思考、行動、觀察,直到任務完成。
- 生產級代理系統以基礎設施為主,AI決策邏輯僅佔極小部分。
- 企業採用AI代理面臨整合複雜、成本高、價值不明確等問題,導致高失敗率。
- 評估方法是當前主要瓶頸,而非模型能力。
為什麼重要
這條新聞值得關注,因為AI代理的核心是ReAct模式:迴圈進行思考、行動、觀察,直到任務完成。
技術影響
可能影響模型選型、推理成本、產品能力和評測基準。
AI代理(AI Agent)是當前科技領域最熱門的概念之一,但其核心架構其實相當簡潔:一個大型語言模型(LLM)與外部工具相連,在一個迴圈中運作——模型推理出要做什麼,呼叫工具,觀察結果,然後重複,直到任務完成。這個被稱為ReAct的模式,源自2022年的論文《Synergizing Reasoning and Acting in Language Models》,如今已成為所有生產級AI代理的基礎。
然而,讓代理高效工作的並非模型本身,而是圍繞它的基礎設施:如何管理跨數千次工具呼叫的上下文視窗,如何設計適應非確定性消費者的工具,以及如何實施安全邊界。一個廣為流傳的說法成為了這個領域的標誌性資料:Claude Code洩露的原始碼顯示,其程式碼庫中僅有約1.6%是AI決策邏輯,其餘98.4%是運營基礎設施。儘管這一數字存在爭議——批評者認為它誤讀了相關論文的分類方式,且“AI邏輯”與“基礎設施”的劃分本身是一種解釋性選擇而非程式碼事實——但無論確切比例如何,基本直覺是正確的:生產級代理系統的主導因素是運營工程。
代理架構已演變為幾個明確的層次:
- **ReAct迴圈**(思考→行動→觀察)將推理軌跡與外部動作交錯進行,使模型能夠在與真實資料來源互動的同時推斷、跟蹤和更新計劃。
- **工具使用**將模型連線到API、檔案、資料庫等其他系統。關鍵在於,工具必須專門為代理設計,即非確定性消費者,而不僅僅是封裝為API端點。
- **記憶**分為兩種形式:短期記憶(受上下文視窗限制的上下文學習)和長期記憶(透過檢索增強生成檢索外部向量儲存)。
- **規劃與組合模式**(編排者-工作者、評估者-最佳化者、並行化)使代理能夠處理複雜的多步驟任務。
- **多代理系統**將子任務分配給專門的工作者,以指數級增長的令牌成本換取開放式問題上的巨大能力提升。
- **可觀測性**(透過OpenTelemetry GenAI語義約定的分散式追蹤、無限迴圈檢測、成本歸因和會話重放)已成為關鍵運營層。沒有它,除錯非確定性代理行為幾乎不可能。
這項研究最重要的發現是,代理架構已經圍繞一套小而精的廣為人知模式收斂。框架供應商(LangChain、CrewAI、OpenAI的SDK、Anthropic的Agent SDK)之間的競爭主要在於人體工程學。真正的工程努力投入到上下文管理、工具設計和可靠性上,這些領域的頂尖從業者積累了豐富的領域知識。
第二個重要發現是,代理基準測試與現實世界效能之間的差距遠超常見假設:95%的企業AI試點專案未能帶來可衡量的投資回報率,約一半透過SWE-bench的拉取請求不會被真正維護者合併。該領域的主要瓶頸現在是評估方法,而非模型能力。
第三個發現:“代理冬天”的批評有實證支援。企業採用速度比早期炒作所暗示的更慢、更謹慎。Gartner預測到2027年,40%的代理型AI專案將被放棄,原因是“成本上升、商業價值不明確和整合複雜性”。普華永道將整合複雜性(67%)、缺乏監控(58%)和不清晰的升級路徑(52%)列為試點失敗的首要原因。
總而言之,AI代理並非魔法,而是一種精心設計的系統工程。理解其架構和權衡,對於任何希望在企業中成功部署AI代理的人來說,都至關重要。