2026-06-14站内改写2 分钟阅读更新: 2026-06-14

为什么AI代理无法扩展：这是一个工程问题，而非AI问题

文章指出，扩展AI代理面临五大基础设施挑战：用户行为不可预测、企业数据（90%以上为非结构化）难以访问、多代理协调、企业特定知识融入以及可观测性缺失。解决方案包括确定性防护栏、非结构化数据管道、代理间验证和决策质量监控。核心观点：LLM是简单的部分，围绕它的工程系统才是瓶颈。

来源Hacker News AI作者: dovelome

AI代理的扩展问题并非源于大语言模型（LLM）的能力不足，而是一个系统工程挑战。当代理从演示阶段进入真实用户环境时，基础设施的复杂性迅速凸显。

首先，用户行为的不可预测性是第一大障碍。当LLM直接面向消费者时，用户可能做出各种意想不到的操作，因此需要一层规划器来约束LLM的执行路径。当前许多工具如Claude Code、Cursor和Windsurf都采用了这种“计划-执行”模式：代理提出一个计划，然后在该计划内执行，而不是自由发挥。这种确定性防护栏能够有效防止用户“疯狂行为”导致的失败。

其次，数据可访问性是真正的瓶颈。超过90%的企业数据是非结构化的，包括合同、PDF、电子邮件和转录文件。目前的生成式AI项目仅利用了不到1%的企业数据。代理即使推理能力再强，如果无法访问所需数据，也只能给出基于“感觉”的错误答案。因此，构建一个高效的非结构化数据管道——包括数据分块、嵌入、治理和服务——是必须优先解决的问题。这是数据工程问题，而非模型问题。

第三，多代理协调带来了错误传播的挑战。当五个代理串联工作时，即使每个代理的失败率仅为5%，整体可靠性也会降至约77%。若代理B产生幻觉，其错误将沿着链条传播并放大。解决方案包括在每个代理跳转之间添加确定性验证、设置回退路径，并建立一个代理注册表以便发现和调度合适的代理。

第四，企业特定知识的融入是另一个关键挑战。LLM在第一天对你的业务一无所知。微调成本高昂且速度慢，RAG虽然成本较低，但依赖于稳健的数据管道。大多数公司在这一步停滞不前——代理在公共知识上表现良好，但在内部流程上失败。

最后，监控方面存在巨大缺口。传统APM工具（如Datadog、Grafana）仅监控延迟和错误，而代理监控需要跟踪决策质量：代理是否选择了正确的工具？计划是否合理？输出是否事实正确？目前这一可观测性层几乎没有现成工具支持。

为了应对这些挑战，文章提出了一个包含规划器/路由器、验证器、聚合器以及可观测性循环的架构。规划器将用户请求分解为子任务并选择专业代理；每个代理后接验证器进行确定性检查；聚合器合并结果并检测矛盾；可观测性循环提供决策审计和质量评分。

最终，团队需要将AI代理视为分布式系统问题，而非单纯的AI问题。确定性系统应包裹非确定性模型，而非相反。LLM提出方案，确定性代码决定执行。只有这样，代理才能从原型走向规模化生产。