AI News HubLIVE
站内改写3 分钟阅读

自建AI代理平台?或许该三思

许多企业在构建AI代理平台时低估了其复杂性和长期成本。本文从内存、治理、评估和编排四个关键组件入手,分析了自建平台面临的挑战,并给出了五条决策前必须回答的问题。

来源O'Reilly AI & ML Radar作者: Pete Johnson

在董事会要求季度末拿出AI代理战略的压力下,许多企业开始自建平台。然而,这篇文章指出,这很可能是一个被严重低估的工程挑战。作者通过分析四个关键组件——内存、治理、评估和编排——揭示了自建代理平台的实际成本远超预期。

首先,内存并非简单的数据库问题。生产环境中的内存需要区分情景记忆、语义记忆和程序记忆,并具备时间推理、去重、多租户隔离等功能。相关创业公司如Mem0、Letta和Zep的融资情况表明,这是一个独立的成熟产品类别。Mem0在种子轮和A轮融资了2400万美元,Letta(前身为MemGPT)从Felicis融资1000万美元,Zep作为独立公司拥有时间知识图谱引擎。这些足以说明问题。在LongMemEval基准测试中,Zep在时间查询上比Mem0高出15分,证明它们并非可互换的工具。这是平台团队最容易低估的组件,内存听起来像数据库问题,实际上完全不是。

治理同样被轻视。代理治理不仅涉及数据授权,还需要行动授权、决策链可审计性、行为漂移检测等。随着欧盟AI法案于2026年8月全面生效,合规要求变得更加紧迫。Grant Thornton的2026年AI影响调查发现,78%的高管没有强烈信心在90天内通过独立AI治理审计。OWASP也将“过度代理”列为LLM应用的顶级漏洞类别。康奈尔大学的研究人员展示了间接提示注入攻击,通过代理摄入的内容操纵代理。这些是代理特有的攻击面,传统安全工具无法发现。基于角色的访问控制(RBAC)是为具有可预测意图的人类设计的,而代理没有可预测的意图。

评估方面,代理的非确定性特性使得传统测试方法不再适用。麦肯锡QuantumBlack团队指出,对于单个代理,需要评估完整的轨迹,包括工具调用、状态转换和中间决策;对于多代理系统,需要评估系统动态,包括协调模式和集体不变量。这是因为代理行为本质上是不确定的,相同的输入可能产生不同的有效执行路径。谷歌Vertex AI已经标准化了轨迹精确度等指标。LangChain的2026年报告显示,57%的组织已将代理投入生产,32%将质量列为首要部署障碍。Gartner预测,到2028年,60%的软件工程团队将采用AI评估和可观测性平台,而2025年这一比例仅为18%。你需要另一个评估来判断你的评估是否有效,这种递归足以耗尽平台团队。

编排层尚未收敛。LangGraph使用有向图与条件边,CrewAI使用基于角色的团队,OpenAI的Agents SDK使用显式交接,AutoGen使用对话式GroupChat,谷歌ADK使用层次化代理树,Claude的Agents SDK使用工具使用链与子代理,微软的Agent Framework自有特色。每种都代表着不同的状态管理、通信模式和协调模型,它们之间不可互换。迁移不是配置更改,而是重写大部分代理逻辑。底层协议层仍在发明中,模型上下文协议(MCP)正在成为工具集成的标准,代理到代理(A2A)协议正在出现。两者都是移动目标,建立在移动协议上的成本内部平台团队很少考虑到。如果你在2024年自建了编排层,到2026年就得重写,而选择框架的团队这两年都在交付产品。

尽管如此,文章也承认在某些情况下自建是合理的。专有数据确实是持久的竞争护城河:万事达卡基于其交易网络构建了基础模型,Plaid基于其金融机构覆盖构建了模型。受监管行业有合法理由希望控制完整堆栈,现成的AI工具并不总是能很好地映射到HIPAA、GxP、21 CFR Part 11、SOX、FFIEC和PCI DSS等框架。供应商锁定在AI层比传统软件更微妙、更危险。但关键区别在于:这些是构建业务层之上代理的论点,而不是构建底层平台组件的论点。你可以拥有数据、领域逻辑、评估标准、治理策略和业务所需的具体行为,而不必拥有底层的内存层、编排引擎或跟踪收集基础设施。构建业务特定部分,购买技术通用部分,这是启发式原则。

最后,文章列出了五条决策前必答问题:你是在构建代理平台还是工作流系统?能否用三句话描述每个组件(内存、治理、评估、编排)的“完成”状态?如果你的需求定义不清晰,就不应该开始构建。这些问题旨在帮助团队避免陷入成本超支的困境。在决定自建之前,请务必认真思考这些挑战。