2026-06-16站内改写2 分鐘閱讀更新: 2026-06-16

Monte Carlo：使用 LangGraph 和 LangSmith 構建資料 + AI 可觀測性代理

Monte Carlo 利用 LangGraph 構建 AI 故障排除代理，並使用 LangSmith 進行除錯，幫助資料團隊更快地解決問題。該代理能夠並行探索多個調查路徑，顯著縮短根因分析時間。

Monte Carlo 是一家領先的企業級資料與 AI 可觀測性平臺，幫助組織監控資料和 AI 可靠性問題，並追溯至根本原因。在多年構建複雜資料監控與故障排除工具後，Monte Carlo 意識到他們已在無意中為其旗艦 AI 代理奠定了基礎——該系統能夠啟動數百個子代理來調查資料問題，並以引人注目且可操作的方式加速根因分析。

資料工程師在大型企業中花費大量時間手動排查資料告警，調查失敗的任務、追蹤程式碼變更，並判斷問題是否需要立即解決。這種人工流程迫使工程師依次遵循單一調查路徑，常常遺漏並行問題，或在複雜且相互關聯的資料系統中花費過多時間定位根因。Monte Carlo 的客戶主要是資料驅動營收的大型企業，資料不正確或不可用可能影響數百萬美元的業務。為此，Monte Carlo 希望利用 AI 代理並行處理數百個假設，從而幫助資料團隊快速發現並修復具體資料質量事件的根因。

Monte Carlo 選擇 LangGraph 作為其 AI 故障排除代理的基礎，因為其調查過程自然對映為基於圖的決策流程。當告警觸發時，系統遵循結構化的故障排除方法論，模擬經驗豐富的資料工程師的處理方式，但以更大規模進行。具體流程為：告警 → 檢查程式碼變更 → 分析時間線 → 調查依賴關係 → 報告發現。LangGraph 實現從告警開始，建立動態的調查節點圖，每個節點可根據發現結果生成子節點，使代理能夠並行探索多個潛在根因。

Monte Carlo 的產品經理 Bryce Heltzel 指出，LangGraph 的價值在於實現了快速上市。在為期 4 周的緊張截止日期前，團隊有信心向客戶演示代理，這是使用定製解決方案無法實現的。從開發第一天起，Monte Carlo 就開始使用 LangSmith 進行除錯。Heltzel 表示：“LangSmith 是自然的選擇，因為我們用 LangGraph 構建代理。我們希望透過 LangSmith 視覺化圖工作流的開發程序。”作為產品經理，Heltzel 深度參與提示工程，憑藉對客戶用例的深刻理解，他可以直接快速迭代提示，無需經過工程週期。由於 LangSmith 配置簡單，團隊能夠專注於代理邏輯和解決客戶資料問題，而不是工具搭建。

架構方面，Monte Carlo 利用多種 AWS 服務構建可擴充套件、安全且解耦的系統，連線現有單體平臺與新的 AI 代理棧。使用 Amazon Bedrock 賦能代理基礎模型，無需管理基礎設施。Auth Gateway Lambda 作為輕量級無伺服器入口處理認證；Monolith Service 繼續提供核心 API 並將應用資料持久化到 Amazon RDS；AI Agent Service 執行在 Amazon ECS Fargate 上，實現容器化微服務的自動擴充套件，流量透過網路負載均衡器 (NLB) 分發。

未來，Monte Carlo 專注於提升可視性和驗證能力，理解追蹤中的錯誤發生點，並建立穩健的反饋機制以確保持續為客戶創造價值。同時計劃擴充套件代理能力，同時保持核心價值主張：讓資料團隊更快、更全面地解決問題。其先發優勢，結合 LangGraph 的靈活架構和 LangSmith 的除錯能力，將使 Monte Carlo 持續引領資料 + AI 可觀測性領域。