Monte Carlo:使用 LangGraph 和 LangSmith 構建數據 + AI 可觀測性代理
Monte Carlo 利用 LangGraph 構建 AI 故障排除代理,並使用 LangSmith 進行調試,幫助數據團隊更快地解決問題。該代理能夠並行探索多個調查路徑,顯著縮短根因分析時間。
Monte Carlo 是一家領先的企業級數據與 AI 可觀測性平台,幫助組織監控數據和 AI 可靠性問題,並追溯至根本原因。在多年構建複雜數據監控與故障排除工具後,Monte Carlo 意識到他們已在無意中為其旗艦 AI 代理奠定了基礎——該系統能夠啓動數百個子代理來調查數據問題,並以引人注目且可操作的方式加速根因分析。
數據工程師在大型企業中花費大量時間手動排查數據告警,調查失敗的任務、追蹤代碼變更,並判斷問題是否需要立即解決。這種人工流程迫使工程師依次遵循單一調查路徑,常常遺漏並行問題,或在複雜且相互關聯的數據系統中花費過多時間定位根因。Monte Carlo 的客户主要是數據驅動營收的大型企業,數據不正確或不可用可能影響數百萬美元的業務。為此,Monte Carlo 希望利用 AI 代理並行處理數百個假設,從而幫助數據團隊快速發現並修復具體數據質量事件的根因。
Monte Carlo 選擇 LangGraph 作為其 AI 故障排除代理的基礎,因為其調查過程自然映射為基於圖的決策流程。當告警觸發時,系統遵循結構化的故障排除方法論,模擬經驗豐富的數據工程師的處理方式,但以更大規模進行。具體流程為:告警 → 檢查代碼變更 → 分析時間線 → 調查依賴關係 → 報告發現。LangGraph 實現從告警開始,創建動態的調查節點圖,每個節點可根據發現結果生成子節點,使代理能夠並行探索多個潛在根因。
Monte Carlo 的產品經理 Bryce Heltzel 指出,LangGraph 的價值在於實現了快速上市。在為期 4 周的緊張截止日期前,團隊有信心向客户演示代理,這是使用定製解決方案無法實現的。從開發第一天起,Monte Carlo 就開始使用 LangSmith 進行調試。Heltzel 表示:“LangSmith 是自然的選擇,因為我們用 LangGraph 構建代理。我們希望通過 LangSmith 可視化圖工作流的開發進程。”作為產品經理,Heltzel 深度參與提示工程,憑藉對客户用例的深刻理解,他可以直接快速迭代提示,無需經過工程週期。由於 LangSmith 配置簡單,團隊能夠專注於代理邏輯和解決客户數據問題,而不是工具搭建。
架構方面,Monte Carlo 利用多種 AWS 服務構建可擴展、安全且解耦的系統,連接現有單體平台與新的 AI 代理棧。使用 Amazon Bedrock 賦能代理基礎模型,無需管理基礎設施。Auth Gateway Lambda 作為輕量級無服務器入口處理認證;Monolith Service 繼續提供核心 API 並將應用數據持久化到 Amazon RDS;AI Agent Service 運行在 Amazon ECS Fargate 上,實現容器化微服務的自動擴展,流量通過網絡負載均衡器 (NLB) 分發。
未來,Monte Carlo 專注於提升可視性和驗證能力,理解追蹤中的錯誤發生點,並建立穩健的反饋機制以確保持續為客户創造價值。同時計劃擴展代理能力,同時保持核心價值主張:讓數據團隊更快、更全面地解決問題。其先發優勢,結合 LangGraph 的靈活架構和 LangSmith 的調試能力,將使 Monte Carlo 持續引領數據 + AI 可觀測性領域。