2026-06-17站内改写3 分钟阅读更新: 2026-06-17

自建AI代理平台？或许该三思

许多企业在构建AI代理平台时低估了其复杂性和长期成本。本文从内存、治理、评估和编排四个关键组件入手，分析了自建平台面临的挑战，并给出了五条决策前必须回答的问题。

来源O'Reilly AI & ML Radar作者: Pete Johnson

在董事会要求季度末拿出AI代理战略的压力下，许多企业开始自建平台。然而，这篇文章指出，这很可能是一个被严重低估的工程挑战。作者通过分析四个关键组件——内存、治理、评估和编排——揭示了自建代理平台的实际成本远超预期。

首先，内存并非简单的数据库问题。生产环境中的内存需要区分情景记忆、语义记忆和程序记忆，并具备时间推理、去重、多租户隔离等功能。相关创业公司如Mem0、Letta和Zep的融资情况表明，这是一个独立的成熟产品类别。Mem0在种子轮和A轮融资了2400万美元，Letta（前身为MemGPT）从Felicis融资1000万美元，Zep作为独立公司拥有时间知识图谱引擎。这些足以说明问题。在LongMemEval基准测试中，Zep在时间查询上比Mem0高出15分，证明它们并非可互换的工具。这是平台团队最容易低估的组件，内存听起来像数据库问题，实际上完全不是。

治理同样被轻视。代理治理不仅涉及数据授权，还需要行动授权、决策链可审计性、行为漂移检测等。随着欧盟AI法案于2026年8月全面生效，合规要求变得更加紧迫。Grant Thornton的2026年AI影响调查发现，78%的高管没有强烈信心在90天内通过独立AI治理审计。OWASP也将“过度代理”列为LLM应用的顶级漏洞类别。康奈尔大学的研究人员展示了间接提示注入攻击，通过代理摄入的内容操纵代理。这些是代理特有的攻击面，传统安全工具无法发现。基于角色的访问控制（RBAC）是为具有可预测意图的人类设计的，而代理没有可预测的意图。

评估方面，代理的非确定性特性使得传统测试方法不再适用。麦肯锡QuantumBlack团队指出，对于单个代理，需要评估完整的轨迹，包括工具调用、状态转换和中间决策；对于多代理系统，需要评估系统动态，包括协调模式和集体不变量。这是因为代理行为本质上是不确定的，相同的输入可能产生不同的有效执行路径。谷歌Vertex AI已经标准化了轨迹精确度等指标。LangChain的2026年报告显示，57%的组织已将代理投入生产，32%将质量列为首要部署障碍。Gartner预测，到2028年，60%的软件工程团队将采用AI评估和可观测性平台，而2025年这一比例仅为18%。你需要另一个评估来判断你的评估是否有效，这种递归足以耗尽平台团队。

编排层尚未收敛。LangGraph使用有向图与条件边，CrewAI使用基于角色的团队，OpenAI的Agents SDK使用显式交接，AutoGen使用对话式GroupChat，谷歌ADK使用层次化代理树，Claude的Agents SDK使用工具使用链与子代理，微软的Agent Framework自有特色。每种都代表着不同的状态管理、通信模式和协调模型，它们之间不可互换。迁移不是配置更改，而是重写大部分代理逻辑。底层协议层仍在发明中，模型上下文协议（MCP）正在成为工具集成的标准，代理到代理（A2A）协议正在出现。两者都是移动目标，建立在移动协议上的成本内部平台团队很少考虑到。如果你在2024年自建了编排层，到2026年就得重写，而选择框架的团队这两年都在交付产品。

尽管如此，文章也承认在某些情况下自建是合理的。专有数据确实是持久的竞争护城河：万事达卡基于其交易网络构建了基础模型，Plaid基于其金融机构覆盖构建了模型。受监管行业有合法理由希望控制完整堆栈，现成的AI工具并不总是能很好地映射到HIPAA、GxP、21 CFR Part 11、SOX、FFIEC和PCI DSS等框架。供应商锁定在AI层比传统软件更微妙、更危险。但关键区别在于：这些是构建业务层之上代理的论点，而不是构建底层平台组件的论点。你可以拥有数据、领域逻辑、评估标准、治理策略和业务所需的具体行为，而不必拥有底层的内存层、编排引擎或跟踪收集基础设施。构建业务特定部分，购买技术通用部分，这是启发式原则。

最后，文章列出了五条决策前必答问题：你是在构建代理平台还是工作流系统？能否用三句话描述每个组件（内存、治理、评估、编排）的“完成”状态？如果你的需求定义不清晰，就不应该开始构建。这些问题旨在帮助团队避免陷入成本超支的困境。在决定自建之前，请务必认真思考这些挑战。