LangSmith、Langfuse、Arize によるエージェントの可観測性比較ハンズオン
本記事では、AIエージェントの可観測性ツールとして広く使われているLangSmith、Langfuse、Arizeの3つを比較します。LangChainベースのテストエージェントを設定し、各ツールの統合方法、トレース機能、評価ワークフローを実演します。LangSmithはLangChainとのネイティブ統合が容易で、完全な実行ツリービューとプロンプトデバッグ機能を提供します。Langfuseはオープンソースでフレームワークに依存せず、セッショングルーピングと事後スコアリングをサポートします。Arizeはプロダクション向けML可観測性に特化し、OpenInference標準を採用しています。開発ニーズに応じた最適なツール選択を支援します。
AIエージェントの開発において、テスト段階では正常に動作するエージェントが、本番環境にデプロイされると予期せぬ問題に直面することがよくあります。ツール呼び出しが無限ループに陥る、検索ステップが無意味な結果を返す、コストが急騰する——原因はまったく不明です。これがエージェントの可観測性の問題です。本稿では、LangSmith、Langfuse、Arizeという3つの主要な可観測性ツールを、実際のLangChainエージェントを用いて比較します。
エージェントの可観測性とは?
従来のアプリケーション監視はリクエスト、エラー、レイテンシに焦点を当てていますが、AIエージェントには不十分です。エージェントは複数のツールを順次呼び出し、各LLMステップには独自のプロンプト、トークン使用量、レイテンシ、そして潜在的な障害ポイントがあります。1つの検索やツール呼び出しの失敗が、最終的な誤った応答につながりかねません。エージェントの可観測性は、すべてのステップ、意思決定、LLMの入出力、ツール呼び出しとその引数・結果、トークン使用量、レイテンシ、評価スコアを含む完全な実行グラフをキャプチャします。この可視性がなければ、エージェントのデバッグは推測に頼らざるを得ません。
テストエージェントのセットアップ
比較には、2つのツール(search_docsとget_order_status)を持つシンプルなLangChainエージェントを使用しました。エージェントはユーザーの質問を受け取り、関連コンテキストを取得し、ツールを使って回答を生成します。基本コードはエージェントの構築と3つのテスト質問を提供します。
LangSmith:ネイティブLangChainトレーシング
LangSmithはLangChainチームによって開発され、LangChainとの統合が最も簡単です。環境変数を設定するだけで、コード変更なしに自動トレーシングが有効になります。ダッシュボードでは、各ノードの入力、出力、レイテンシを含む完全なエージェント実行ツリーを確認できます。LangSmithは実行のタグ付け、メタデータ追加、結果によるフィルタリング、実行をデータセットとして保存、評価の実行をサポートします。さらに、プロンプトプレイグラウンド機能により、トレースから直接プロンプトを編集して再実行し、LLMのパフォーマンスをデバッグできます。ただし、無料枠には制限があり、LangChainを使用していない場合は追加の統合作業が必要です。
Langfuse:オープンソースでフレームワーク非依存
Langfuseはオープンソースの代替品で、セルフホスティングまたはクラウドサービスとして利用できます。コールバックハンドラーを介してLangChain、LlamaIndex、OpenAI APIなどと統合できます。LangSmithよりも明示的な制御が可能で、呼び出しごとにコールバックハンドラーを渡し、ユーザーID、セッションID、カスタムメタデータを指定できます。Langfuseの評価ワークフローでは、トレース完了後にクライアント経由でスコアを追加でき、人間によるレビューと集計メトリクスを組み合わせられます。セッショングルーピング機能により、複数ターンの会話を追跡しやすくなっています。
Arize:プロダクション向けML可観測性
Arizeは元々従来の機械学習モデル監視用に開発されましたが、現在はLLMとエージェントにも対応しています。OpenInference標準を測定スキームとして採用し、大規模プロダクション環境に適しています。Arizeはエンタープライズ向けのトレーシングと監視機能を提供します。
選択のポイント
まとめると、すでにLangChainを使用していて迅速な統合を求めるならLangSmith、オープンソースでフレームワークに依存しない柔軟なソリューションが必要ならLangfuse、大規模プロダクション展開で包括的なML監視が必要ならArizeが適しています。最適なツールを選ぶには、統合の容易さ、拡張性、コスト、評価ワークフローの柔軟性など、自社の可観測性要件を明確に理解することが重要です。