Pendo如何利用LangSmith追蹤Novus:從用户行為到代碼修復
Pendo使用LangSmith對AI產品代理Novus進行調試、評估和監控,該代理將行為數據和會話回放轉化為代碼修復。LangSmith在生產環境中提供完整追蹤,幫助Pendo在幾天內將Novus交付生產,成功率達90%以上,並節省25%的評估新用例時間。
Pendo首席AI官Zain Lakhani在LangChain博客上發表文章,詳細介紹了該公司如何利用LangSmith構建和監控其AI產品代理Novus。Novus旨在解決現代軟件開發中一個日益嚴重的問題:AI編碼工具加速了代碼交付,卻破壞了產品反饋循環。開發人員快速部署代碼,但缺乏用户驗收測試,導致難以使用的軟件上線。Novus通過分析用户行為數據和會話回放,自動識別可用性問題並生成代碼修復,從而閉環從部署到迭代的流程。
Novus的工作原理是:用户將代碼庫與Novus片段連接,該片段監控所有用户點擊並記錄會話回放。Novus聚合行為數據並利用AI進行解讀,持續發現具體、可操作的問題。例如,它可能指出:“我們注意到在每日訪問量達1000次的頁面上,從結賬到訂單確認的漏斗轉化率下降了3%。”其智能在於端到端分析:使用會話回放診斷根本原因(例如識別憤怒點擊),將行為與相關代碼文件關聯,並生成建議的修復。
LangSmith在整個過程中扮演了關鍵角色。從最初的設計合作伙伴對話到生產部署,LangSmith一直是Pendo的代理可觀測性平台。在設計合作伙伴階段,Pendo團隊每天早晨通過LangSmith的追蹤視圖查看用户與代理的互動,從而確定優先用例。這些用例後來成為開放測試版中的建議提示,以及評估集的基礎。
在生產環境中,每一次運行都會生成完整的追蹤樹,包括輸入、輸出、工具調用、子代理調用、令牌計數和成本數據。當客户報告生成的PR未解決正確問題時,Pendo可以調出追蹤並檢查代理的每一步決策。嵌套結構映射了代理的組織方式,便於定位推理步驟出錯的位置。
Pendo還利用追蹤標籤關聯支持問題、客户活動和成本。每個追蹤都標記有用户名、對話ID和組織,使任何支持或工程問題能直接對應相關追蹤,而不是手動翻閲日誌。同時,標籤支持按組織級別監控成本,確保令牌支出用於最智能的模型,同時瞭解成本和去向。
LangSmith的使用數據還揭示了每個客户如何從Novus中獲得價值。通過查看哪些組織依賴哪些用例,Pendo可以定製客户拓展和工程參與策略。此外,線程視圖幫助評估多輪對話是否達到解決;反饋分數則提供對輸出實際效果的信號。
一個關鍵發現是,早期追蹤顯示Novus在選擇分析數據或代碼上下文時往往只取其一,很少同時使用。Pendo通過調整提示,明確利用Novus的力量在於結合兩者,從而避免了回到前Novus時代。
結果是:與以往產品相比,識別和評估新用例節省了25%的時間;60%的AI問題在客户發現之前就被追蹤捕捉到。Novus專為那些比觀察速度更快的產品團隊構建,隨着AI編碼工具不斷壓縮從創意到生產的時間,部署與理解之間的差距只會擴大。Novus的目標是在用户會話發生後的幾分鐘內自動彌合這一差距。