PendoがLangSmithを使用してNovusをユーザー行動からコード修正までトレースする方法
Pendoは、行動データとセッションリプレイをコード修正に変換するAIプロダクトエージェントNovusのデバッグ、評価、モニタリングにLangSmithを活用しました。LangSmithの本番トレーシングにより、PendoはNovusを数日で本番稼働させ、成功率90%以上を達成し、新ユースケースの特定に25%の時間短縮、顧客が気づく前に60%のAI問題を捕捉しました。
Pendoの最高AI責任者Zain Lakhani氏がLangChainブログで、同社がLangSmithを活用してAIプロダクトエージェントNovusを構築・監視した方法を詳述しました。Novusは、現代のソフトウェア開発における深刻な問題に対処します。AIコーディングツールがコード配信を加速する一方で、製品フィードバックループを壊しています。開発者は迅速にコードをデプロイしますが、ユーザー受け入れテストが不足し、使いにくいソフトウェアがリリースされます。Novusは、ユーザー行動データとセッションリプレイを分析してユーザビリティ問題を自動的に特定し、コード修正を生成することで、デプロイからイテレーションまでのサイクルを閉じます。
Novusの仕組み:ユーザーがコードベースをNovusスニペットにリンクすると、スニペットがすべてのユーザークリックを監視し、セッションリプレイを記録します。Novusは行動データを集約し、AIを使用して解釈し、具体的で実行可能な問題を継続的に表面化します。例えば、「1日1000回アクセスされるページで、チェックアウトから注文確認へのファネル転換率が3%低下している」と指摘します。その知能はエンドツーエンドの分析にあります。セッションリプレイを使用して根本原因を診断し(例:レイジクリックの特定)、その行動を関連するコードファイルと相関付け、修正案を生成します。
LangSmithはこのプロセス全体で重要な役割を果たしました。最初のデザインパートナーとの会話から本番デプロイまで、LangSmithはPendoのエージェント観測プラットフォームであり続けました。デザインパートナー段階では、Pendoチームは毎朝最初にLangSmithのトレースビューを開き、ユーザーとエージェントの個々のやり取りを読み、優先ユースケースを特定しました。これらのユースケースは後にオープンベータで出荷された推奨プロンプトと評価セットの基盤となりました。
本番環境では、各実行が完全なトレースツリー(入力、出力、ツールコール、サブエージェント呼び出し、トークン数、コストデータ)を生成します。顧客が生成されたPRが正しい問題に対処していないと報告した場合、Pendoはトレースを呼び出し、エージェントのすべての決定を確認できます。ネストされた構造はエージェントの構成を反映しており、推論ステップの失敗箇所を簡単に特定できます。
Pendoはまた、トレースタグを使用してサポート問題、顧客アクティビティ、コストを関連付けます。各トレースにはユーザー名、会話ID、組織がタグ付けされており、サポートやエンジニアリングの問題を該当するトレースに直接ルーティングできます。同時に、組織レベルでのコスト監視が可能になり、トークン支出を最もスマートなモデルに集中させつつ、コストとその発生源を把握できます。
LangSmithの使用データは、各顧客がNovusからどのように価値を得ているかも示します。どの組織がどのユースケースに依存しているかを確認することで、Pendoは顧客獲得とエンジニアリングエンゲージメントをカスタマイズできます。スレッドビューはマルチターン会話が解決に至ったかどうかを評価し、フィードバックスコアは実際の出力効果のシグナルを提供します。
重要な発見として、初期のトレースは、Novusが分析データとコードコンテキストのいずれか一方のみを選択し、両方を組み合わせることがほとんどないことを示しました。Pendoはプロンプトを調整し、Novusの力は両方の組み合わせにあることを明示し、Novus以前の時代に戻るのを防ぎました。
結果は以下の通りです。以前の製品と比較して、新しいユースケースの特定と評価に25%の時間短縮を達成。60%のAI問題が顧客に気付かれる前にトレースで捕捉されました。Novusは、観測速度よりも速く出荷するプロダクトチーム向けに構築されています。AIコーディングツールがアイデアから本番までの時間を圧縮し続ける中、デプロイされたものと理解されているものとのギャップは拡大する一方です。Novusの役割は、ユーザーセッションから数分以内に、このギャップを自動的に埋めることです。