Monte Carlo:使用 LangGraph 和 LangSmith 構建資料 + AI 可觀測性代理
Monte Carlo 利用 LangGraph 構建 AI 故障排除代理,並使用 LangSmith 進行除錯,幫助資料團隊更快地解決問題。該代理能夠並行探索多個調查路徑,顯著縮短根因分析時間。
Monte Carlo 是一家領先的企業級資料與 AI 可觀測性平臺,幫助組織監控資料和 AI 可靠性問題,並追溯至根本原因。在多年構建複雜資料監控與故障排除工具後,Monte Carlo 意識到他們已在無意中為其旗艦 AI 代理奠定了基礎——該系統能夠啟動數百個子代理來調查資料問題,並以引人注目且可操作的方式加速根因分析。
資料工程師在大型企業中花費大量時間手動排查資料告警,調查失敗的任務、追蹤程式碼變更,並判斷問題是否需要立即解決。這種人工流程迫使工程師依次遵循單一調查路徑,常常遺漏並行問題,或在複雜且相互關聯的資料系統中花費過多時間定位根因。Monte Carlo 的客戶主要是資料驅動營收的大型企業,資料不正確或不可用可能影響數百萬美元的業務。為此,Monte Carlo 希望利用 AI 代理並行處理數百個假設,從而幫助資料團隊快速發現並修復具體資料質量事件的根因。
Monte Carlo 選擇 LangGraph 作為其 AI 故障排除代理的基礎,因為其調查過程自然對映為基於圖的決策流程。當告警觸發時,系統遵循結構化的故障排除方法論,模擬經驗豐富的資料工程師的處理方式,但以更大規模進行。具體流程為:告警 → 檢查程式碼變更 → 分析時間線 → 調查依賴關係 → 報告發現。LangGraph 實現從告警開始,建立動態的調查節點圖,每個節點可根據發現結果生成子節點,使代理能夠並行探索多個潛在根因。
Monte Carlo 的產品經理 Bryce Heltzel 指出,LangGraph 的價值在於實現了快速上市。在為期 4 周的緊張截止日期前,團隊有信心向客戶演示代理,這是使用定製解決方案無法實現的。從開發第一天起,Monte Carlo 就開始使用 LangSmith 進行除錯。Heltzel 表示:“LangSmith 是自然的選擇,因為我們用 LangGraph 構建代理。我們希望透過 LangSmith 視覺化圖工作流的開發程序。”作為產品經理,Heltzel 深度參與提示工程,憑藉對客戶用例的深刻理解,他可以直接快速迭代提示,無需經過工程週期。由於 LangSmith 配置簡單,團隊能夠專注於代理邏輯和解決客戶資料問題,而不是工具搭建。
架構方面,Monte Carlo 利用多種 AWS 服務構建可擴充套件、安全且解耦的系統,連線現有單體平臺與新的 AI 代理棧。使用 Amazon Bedrock 賦能代理基礎模型,無需管理基礎設施。Auth Gateway Lambda 作為輕量級無伺服器入口處理認證;Monolith Service 繼續提供核心 API 並將應用資料持久化到 Amazon RDS;AI Agent Service 執行在 Amazon ECS Fargate 上,實現容器化微服務的自動擴充套件,流量透過網路負載均衡器 (NLB) 分發。
未來,Monte Carlo 專注於提升可視性和驗證能力,理解追蹤中的錯誤發生點,並建立穩健的反饋機制以確保持續為客戶創造價值。同時計劃擴充套件代理能力,同時保持核心價值主張:讓資料團隊更快、更全面地解決問題。其先發優勢,結合 LangGraph 的靈活架構和 LangSmith 的除錯能力,將使 Monte Carlo 持續引領資料 + AI 可觀測性領域。