2026-06-16站内改写2 分钟阅读更新: 2026-06-16

Monte Carlo：使用 LangGraph 和 LangSmith 构建数据 + AI 可观测性代理

Monte Carlo 利用 LangGraph 构建 AI 故障排除代理，并使用 LangSmith 进行调试，帮助数据团队更快地解决问题。该代理能够并行探索多个调查路径，显著缩短根因分析时间。

Monte Carlo 是一家领先的企业级数据与 AI 可观测性平台，帮助组织监控数据和 AI 可靠性问题，并追溯至根本原因。在多年构建复杂数据监控与故障排除工具后，Monte Carlo 意识到他们已在无意中为其旗舰 AI 代理奠定了基础——该系统能够启动数百个子代理来调查数据问题，并以引人注目且可操作的方式加速根因分析。

数据工程师在大型企业中花费大量时间手动排查数据告警，调查失败的任务、追踪代码变更，并判断问题是否需要立即解决。这种人工流程迫使工程师依次遵循单一调查路径，常常遗漏并行问题，或在复杂且相互关联的数据系统中花费过多时间定位根因。Monte Carlo 的客户主要是数据驱动营收的大型企业，数据不正确或不可用可能影响数百万美元的业务。为此，Monte Carlo 希望利用 AI 代理并行处理数百个假设，从而帮助数据团队快速发现并修复具体数据质量事件的根因。

Monte Carlo 选择 LangGraph 作为其 AI 故障排除代理的基础，因为其调查过程自然映射为基于图的决策流程。当告警触发时，系统遵循结构化的故障排除方法论，模拟经验丰富的数据工程师的处理方式，但以更大规模进行。具体流程为：告警 → 检查代码变更 → 分析时间线 → 调查依赖关系 → 报告发现。LangGraph 实现从告警开始，创建动态的调查节点图，每个节点可根据发现结果生成子节点，使代理能够并行探索多个潜在根因。

Monte Carlo 的产品经理 Bryce Heltzel 指出，LangGraph 的价值在于实现了快速上市。在为期 4 周的紧张截止日期前，团队有信心向客户演示代理，这是使用定制解决方案无法实现的。从开发第一天起，Monte Carlo 就开始使用 LangSmith 进行调试。Heltzel 表示：“LangSmith 是自然的选择，因为我们用 LangGraph 构建代理。我们希望通过 LangSmith 可视化图工作流的开发进程。”作为产品经理，Heltzel 深度参与提示工程，凭借对客户用例的深刻理解，他可以直接快速迭代提示，无需经过工程周期。由于 LangSmith 配置简单，团队能够专注于代理逻辑和解决客户数据问题，而不是工具搭建。

架构方面，Monte Carlo 利用多种 AWS 服务构建可扩展、安全且解耦的系统，连接现有单体平台与新的 AI 代理栈。使用 Amazon Bedrock 赋能代理基础模型，无需管理基础设施。Auth Gateway Lambda 作为轻量级无服务器入口处理认证；Monolith Service 继续提供核心 API 并将应用数据持久化到 Amazon RDS；AI Agent Service 运行在 Amazon ECS Fargate 上，实现容器化微服务的自动扩展，流量通过网络负载均衡器 (NLB) 分发。

未来，Monte Carlo 专注于提升可视性和验证能力，理解追踪中的错误发生点，并建立稳健的反馈机制以确保持续为客户创造价值。同时计划扩展代理能力，同时保持核心价值主张：让数据团队更快、更全面地解决问题。其先发优势，结合 LangGraph 的灵活架构和 LangSmith 的调试能力，将使 Monte Carlo 持续引领数据 + AI 可观测性领域。