AI News HubLIVE
站内改写3 分で読了

Monte Carlo:LangGraph と LangSmith でデータ+AI 可観測性エージェントを構築

Monte Carlo は LangGraph を基盤に AI トラブルシューティングエージェントを構築し、LangSmith でデバッグすることで、データチームが問題をより迅速に解決できるようにしました。このエージェントは複数の調査経路を並列に探索し、根本原因分析を加速します。

Monte Carlo は、エンタープライズ向けのデータ+AI 可観測性プラットフォームのリーディング企業であり、組織がデータと AI の信頼性問題を監視し、根本原因を追跡できるように支援しています。長年にわたり高度なデータ監視・トラブルシューティングツールを構築してきた Monte Carlo は、知らず知らずのうちに、フラッグシップ AI エージェントの基盤を築いていたことに気づきました。それは、数百のサブエージェントを起動してデータ問題を調査し、根本原因分析を魅力的かつ実用的な方法で加速するシステムです。

大企業のデータエンジニアは、データアラートの手動トラブルシューティングに膨大な時間を費やし、失敗したジョブの調査、コード変更の追跡、問題の優先順位付けを行っています。この手動プロセスでは、エンジニアは順次に単一の調査経路をたどる必要があり、並行する問題を見逃したり、複雑に相互接続されたデータシステムで根本原因の特定に時間がかかりすぎたりします。Monte Carlo の顧客は主にデータが大きな収益を生み出す大企業であり、データの誤りや利用不能は数百万ドルのビジネスに影響を与える可能性があります。そこで Monte Carlo は、「データダウンタイム」をさらに削減する機会を見出しました。AI エージェントが数百の仮説を並行して処理・推論し、データ品質インシデントの根本原因を迅速に発見・修正できるようにするのです。

Monte Carlo は、調査プロセスがグラフベースの意思決定フローに自然にマッピングされるため、LangGraph を AI トラブルシューティングエージェントの基盤として選択しました。アラートがトリガーされると、システムは経験豊富なデータエンジニアのアプローチを模倣した構造化されたトラブルシューティング方法論を大規模に実行します。具体的な流れは次のとおりです:アラート → コード変更の確認 → タイムライン分析 → 依存関係の調査 → 結果報告。LangGraph の実装では、アラートから開始して動的な調査ノードのグラフを作成し、各ノードが発見に基づいてサブノードを生成できるため、エージェントは複数の潜在的な根本原因を並行して調査できます。

プロダクトマネージャーの Bryce Heltzel 氏は、LangGraph の価値は市場投入までのスピードにあると述べています。主要業界サミット前の 4 週間というタイトな期限の中で、チームは自信を持ってエージェントを顧客にデモンストレーションできました。これはカスタムソリューションでは不可能だったことです。開発初日から Monte Carlo は LangSmith を使用してデバッグを開始しました。Heltzel 氏は次のように説明します。「LangGraph でエージェントを構築し始めたので、LangSmith は自然な選択でした。グラフベースのワークフローを可視化したかったのです。」プロダクトマネージャーとして、Heltzel 氏はプロンプトエンジニアリングに深く関与しており、顧客ユースケースの深いコンテキストを活かして、エンジニアリングサイクルを経ずにプロンプトを直接迅速に反復できます。LangSmith の設定が最小限で済んだため、Monte Carlo チームはツールのセットアップではなく、エージェントのロジックと顧客のデータ問題の解決に集中できました。

アーキテクチャでは、Monte Carlo は複数の AWS サービスを活用して、既存のモノリシックプラットフォームと新しい AI エージェントスタックを接続する、スケーラブルで安全かつ疎結合なシステムを構築しています。Amazon Bedrock を使用して、インフラストラクチャを管理することなくエージェントに最新の基盤モデルを提供。Auth Gateway Lambda は軽量なサーバーレスエントリポイントとして認証を処理し、Monolith Service はコア API を提供し、アプリケーションデータを Amazon RDS に永続化。AI Agent Service は Amazon ECS Fargate 上で実行され、コンテナ化されたマイクロサービスが自動スケーリングされ、トラフィックはネットワークロードバランサー (NLB) を介して分散されます。

今後の展望として、Monte Carlo は可視性と検証に注力し、トレース内のバグ発生箇所を理解し、エージェントが顧客に一貫して価値を提供できるよう堅牢なフィードバックメカニズムを構築しています。また、コア価値提案である「データチームがこれまで以上に迅速かつ包括的に問題を解決できること」を維持しながら、エージェントの機能を拡張する予定です。データ+AI 可観測性ツールの先駆者としての優位性と、LangGraph の柔軟なアーキテクチャおよび LangSmith のデバッグ機能により、Monte Carlo はデータ+AI 可観測性分野で引き続きリーダーシップを発揮する立場にあります。