2026-06-16站内改写2 分鐘閱讀更新: 2026-06-16

Monte Carlo：使用 LangGraph 和 LangSmith 構建數據 + AI 可觀測性代理

Monte Carlo 利用 LangGraph 構建 AI 故障排除代理，並使用 LangSmith 進行調試，幫助數據團隊更快地解決問題。該代理能夠並行探索多個調查路徑，顯著縮短根因分析時間。

Monte Carlo 是一家領先的企業級數據與 AI 可觀測性平台，幫助組織監控數據和 AI 可靠性問題，並追溯至根本原因。在多年構建複雜數據監控與故障排除工具後，Monte Carlo 意識到他們已在無意中為其旗艦 AI 代理奠定了基礎——該系統能夠啓動數百個子代理來調查數據問題，並以引人注目且可操作的方式加速根因分析。

數據工程師在大型企業中花費大量時間手動排查數據告警，調查失敗的任務、追蹤代碼變更，並判斷問題是否需要立即解決。這種人工流程迫使工程師依次遵循單一調查路徑，常常遺漏並行問題，或在複雜且相互關聯的數據系統中花費過多時間定位根因。Monte Carlo 的客户主要是數據驅動營收的大型企業，數據不正確或不可用可能影響數百萬美元的業務。為此，Monte Carlo 希望利用 AI 代理並行處理數百個假設，從而幫助數據團隊快速發現並修復具體數據質量事件的根因。

Monte Carlo 選擇 LangGraph 作為其 AI 故障排除代理的基礎，因為其調查過程自然映射為基於圖的決策流程。當告警觸發時，系統遵循結構化的故障排除方法論，模擬經驗豐富的數據工程師的處理方式，但以更大規模進行。具體流程為：告警 → 檢查代碼變更 → 分析時間線 → 調查依賴關係 → 報告發現。LangGraph 實現從告警開始，創建動態的調查節點圖，每個節點可根據發現結果生成子節點，使代理能夠並行探索多個潛在根因。

Monte Carlo 的產品經理 Bryce Heltzel 指出，LangGraph 的價值在於實現了快速上市。在為期 4 周的緊張截止日期前，團隊有信心向客户演示代理，這是使用定製解決方案無法實現的。從開發第一天起，Monte Carlo 就開始使用 LangSmith 進行調試。Heltzel 表示：“LangSmith 是自然的選擇，因為我們用 LangGraph 構建代理。我們希望通過 LangSmith 可視化圖工作流的開發進程。”作為產品經理，Heltzel 深度參與提示工程，憑藉對客户用例的深刻理解，他可以直接快速迭代提示，無需經過工程週期。由於 LangSmith 配置簡單，團隊能夠專注於代理邏輯和解決客户數據問題，而不是工具搭建。

架構方面，Monte Carlo 利用多種 AWS 服務構建可擴展、安全且解耦的系統，連接現有單體平台與新的 AI 代理棧。使用 Amazon Bedrock 賦能代理基礎模型，無需管理基礎設施。Auth Gateway Lambda 作為輕量級無服務器入口處理認證；Monolith Service 繼續提供核心 API 並將應用數據持久化到 Amazon RDS；AI Agent Service 運行在 Amazon ECS Fargate 上，實現容器化微服務的自動擴展，流量通過網絡負載均衡器 (NLB) 分發。

未來，Monte Carlo 專注於提升可視性和驗證能力，理解追蹤中的錯誤發生點，並建立穩健的反饋機制以確保持續為客户創造價值。同時計劃擴展代理能力，同時保持核心價值主張：讓數據團隊更快、更全面地解決問題。其先發優勢，結合 LangGraph 的靈活架構和 LangSmith 的調試能力，將使 Monte Carlo 持續引領數據 + AI 可觀測性領域。