AI代理如何工作:架构深度解析
本文深入分析了AI代理的架构,重点介绍了ReAct模式(推理与行动循环)、工具使用、记忆管理、多代理系统以及可观测性等关键组件。文章指出,生产级代理系统约98.4%的代码是基础设施,仅1.6%是AI决策逻辑,并讨论了企业采用AI代理面临的高失败率和评估挑战。
文章情报
要点
- AI代理的核心是ReAct模式:循环进行思考、行动、观察,直到任务完成。
- 生产级代理系统以基础设施为主,AI决策逻辑仅占极小部分。
- 企业采用AI代理面临集成复杂、成本高、价值不明确等问题,导致高失败率。
- 评估方法是当前主要瓶颈,而非模型能力。
为什么重要
这条新闻值得关注,因为AI代理的核心是ReAct模式:循环进行思考、行动、观察,直到任务完成。
技术影响
可能影响模型选型、推理成本、产品能力和评测基准。
AI代理(AI Agent)是当前科技领域最热门的概念之一,但其核心架构其实相当简洁:一个大型语言模型(LLM)与外部工具相连,在一个循环中运作——模型推理出要做什么,调用工具,观察结果,然后重复,直到任务完成。这个被称为ReAct的模式,源自2022年的论文《Synergizing Reasoning and Acting in Language Models》,如今已成为所有生产级AI代理的基础。
然而,让代理高效工作的并非模型本身,而是围绕它的基础设施:如何管理跨数千次工具调用的上下文窗口,如何设计适应非确定性消费者的工具,以及如何实施安全边界。一个广为流传的说法成为了这个领域的标志性数据:Claude Code泄露的源代码显示,其代码库中仅有约1.6%是AI决策逻辑,其余98.4%是运营基础设施。尽管这一数字存在争议——批评者认为它误读了相关论文的分类方式,且“AI逻辑”与“基础设施”的划分本身是一种解释性选择而非代码事实——但无论确切比例如何,基本直觉是正确的:生产级代理系统的主导因素是运营工程。
代理架构已演变为几个明确的层次:
- **ReAct循环**(思考→行动→观察)将推理轨迹与外部动作交错进行,使模型能够在与真实数据源交互的同时推断、跟踪和更新计划。
- **工具使用**将模型连接到API、文件、数据库等其他系统。关键在于,工具必须专门为代理设计,即非确定性消费者,而不仅仅是封装为API端点。
- **记忆**分为两种形式:短期记忆(受上下文窗口限制的上下文学习)和长期记忆(通过检索增强生成检索外部向量存储)。
- **规划与组合模式**(编排者-工作者、评估者-优化者、并行化)使代理能够处理复杂的多步骤任务。
- **多代理系统**将子任务分配给专门的工作者,以指数级增长的令牌成本换取开放式问题上的巨大能力提升。
- **可观测性**(通过OpenTelemetry GenAI语义约定的分布式追踪、无限循环检测、成本归因和会话重放)已成为关键运营层。没有它,调试非确定性代理行为几乎不可能。
这项研究最重要的发现是,代理架构已经围绕一套小而精的广为人知模式收敛。框架供应商(LangChain、CrewAI、OpenAI的SDK、Anthropic的Agent SDK)之间的竞争主要在于人体工程学。真正的工程努力投入到上下文管理、工具设计和可靠性上,这些领域的顶尖从业者积累了丰富的领域知识。
第二个重要发现是,代理基准测试与现实世界性能之间的差距远超常见假设:95%的企业AI试点项目未能带来可衡量的投资回报率,约一半通过SWE-bench的拉取请求不会被真正维护者合并。该领域的主要瓶颈现在是评估方法,而非模型能力。
第三个发现:“代理冬天”的批评有实证支持。企业采用速度比早期炒作所暗示的更慢、更谨慎。Gartner预测到2027年,40%的代理型AI项目将被放弃,原因是“成本上升、商业价值不明确和集成复杂性”。普华永道将集成复杂性(67%)、缺乏监控(58%)和不清晰的升级路径(52%)列为试点失败的首要原因。
总而言之,AI代理并非魔法,而是一种精心设计的系统工程。理解其架构和权衡,对于任何希望在企业中成功部署AI代理的人来说,都至关重要。