Monte Carlo:使用 LangGraph 和 LangSmith 构建数据 + AI 可观测性代理
Monte Carlo 利用 LangGraph 构建 AI 故障排除代理,并使用 LangSmith 进行调试,帮助数据团队更快地解决问题。该代理能够并行探索多个调查路径,显著缩短根因分析时间。
Monte Carlo 是一家领先的企业级数据与 AI 可观测性平台,帮助组织监控数据和 AI 可靠性问题,并追溯至根本原因。在多年构建复杂数据监控与故障排除工具后,Monte Carlo 意识到他们已在无意中为其旗舰 AI 代理奠定了基础——该系统能够启动数百个子代理来调查数据问题,并以引人注目且可操作的方式加速根因分析。
数据工程师在大型企业中花费大量时间手动排查数据告警,调查失败的任务、追踪代码变更,并判断问题是否需要立即解决。这种人工流程迫使工程师依次遵循单一调查路径,常常遗漏并行问题,或在复杂且相互关联的数据系统中花费过多时间定位根因。Monte Carlo 的客户主要是数据驱动营收的大型企业,数据不正确或不可用可能影响数百万美元的业务。为此,Monte Carlo 希望利用 AI 代理并行处理数百个假设,从而帮助数据团队快速发现并修复具体数据质量事件的根因。
Monte Carlo 选择 LangGraph 作为其 AI 故障排除代理的基础,因为其调查过程自然映射为基于图的决策流程。当告警触发时,系统遵循结构化的故障排除方法论,模拟经验丰富的数据工程师的处理方式,但以更大规模进行。具体流程为:告警 → 检查代码变更 → 分析时间线 → 调查依赖关系 → 报告发现。LangGraph 实现从告警开始,创建动态的调查节点图,每个节点可根据发现结果生成子节点,使代理能够并行探索多个潜在根因。
Monte Carlo 的产品经理 Bryce Heltzel 指出,LangGraph 的价值在于实现了快速上市。在为期 4 周的紧张截止日期前,团队有信心向客户演示代理,这是使用定制解决方案无法实现的。从开发第一天起,Monte Carlo 就开始使用 LangSmith 进行调试。Heltzel 表示:“LangSmith 是自然的选择,因为我们用 LangGraph 构建代理。我们希望通过 LangSmith 可视化图工作流的开发进程。”作为产品经理,Heltzel 深度参与提示工程,凭借对客户用例的深刻理解,他可以直接快速迭代提示,无需经过工程周期。由于 LangSmith 配置简单,团队能够专注于代理逻辑和解决客户数据问题,而不是工具搭建。
架构方面,Monte Carlo 利用多种 AWS 服务构建可扩展、安全且解耦的系统,连接现有单体平台与新的 AI 代理栈。使用 Amazon Bedrock 赋能代理基础模型,无需管理基础设施。Auth Gateway Lambda 作为轻量级无服务器入口处理认证;Monolith Service 继续提供核心 API 并将应用数据持久化到 Amazon RDS;AI Agent Service 运行在 Amazon ECS Fargate 上,实现容器化微服务的自动扩展,流量通过网络负载均衡器 (NLB) 分发。
未来,Monte Carlo 专注于提升可视性和验证能力,理解追踪中的错误发生点,并建立稳健的反馈机制以确保持续为客户创造价值。同时计划扩展代理能力,同时保持核心价值主张:让数据团队更快、更全面地解决问题。其先发优势,结合 LangGraph 的灵活架构和 LangSmith 的调试能力,将使 Monte Carlo 持续引领数据 + AI 可观测性领域。