AI News HubLIVE
站內改寫2 分鐘閱讀

Pendo如何利用LangSmith追蹤Novus:從使用者行為到程式碼修復

Pendo使用LangSmith對AI產品代理Novus進行除錯、評估和監控,該代理將行為資料和會話回放轉化為程式碼修復。LangSmith在生產環境中提供完整追蹤,幫助Pendo在幾天內將Novus交付生產,成功率達90%以上,並節省25%的評估新用例時間。

Pendo首席AI官Zain Lakhani在LangChain部落格上發表文章,詳細介紹了該公司如何利用LangSmith構建和監控其AI產品代理Novus。Novus旨在解決現代軟體開發中一個日益嚴重的問題:AI編碼工具加速了程式碼交付,卻破壞了產品反饋迴圈。開發人員快速部署程式碼,但缺乏使用者驗收測試,導致難以使用的軟體上線。Novus透過分析使用者行為資料和會話回放,自動識別可用性問題並生成程式碼修復,從而閉環從部署到迭代的流程。

Novus的工作原理是:使用者將程式碼庫與Novus片段連線,該片段監控所有使用者點選並記錄會話回放。Novus聚合行為資料並利用AI進行解讀,持續發現具體、可操作的問題。例如,它可能指出:“我們注意到在每日訪問量達1000次的頁面上,從結賬到訂單確認的漏斗轉化率下降了3%。”其智慧在於端到端分析:使用會話回放診斷根本原因(例如識別憤怒點選),將行為與相關程式碼檔案關聯,並生成建議的修復。

LangSmith在整個過程中扮演了關鍵角色。從最初的設計合作伙伴對話到生產部署,LangSmith一直是Pendo的代理可觀測性平臺。在設計合作伙伴階段,Pendo團隊每天早晨透過LangSmith的追蹤檢視檢視使用者與代理的互動,從而確定優先用例。這些用例後來成為開放測試版中的建議提示,以及評估集的基礎。

在生產環境中,每一次執行都會生成完整的追蹤樹,包括輸入、輸出、工具呼叫、子代理呼叫、令牌計數和成本資料。當客戶報告生成的PR未解決正確問題時,Pendo可以調出追蹤並檢查代理的每一步決策。巢狀結構對映了代理的組織方式,便於定位推理步驟出錯的位置。

Pendo還利用追蹤標籤關聯支援問題、客戶活動和成本。每個追蹤都標記有使用者名稱、對話ID和組織,使任何支援或工程問題能直接對應相關追蹤,而不是手動翻閱日誌。同時,標籤支援按組織級別監控成本,確保令牌支出用於最智慧的模型,同時瞭解成本和去向。

LangSmith的使用資料還揭示了每個客戶如何從Novus中獲得價值。透過檢視哪些組織依賴哪些用例,Pendo可以定製客戶拓展和工程參與策略。此外,執行緒檢視幫助評估多輪對話是否達到解決;反饋分數則提供對輸出實際效果的訊號。

一個關鍵發現是,早期追蹤顯示Novus在選擇分析資料或程式碼上下文時往往只取其一,很少同時使用。Pendo透過調整提示,明確利用Novus的力量在於結合兩者,從而避免了回到前Novus時代。

結果是:與以往產品相比,識別和評估新用例節省了25%的時間;60%的AI問題在客戶發現之前就被追蹤捕捉到。Novus專為那些比觀察速度更快的產品團隊構建,隨著AI編碼工具不斷壓縮從創意到生產的時間,部署與理解之間的差距只會擴大。Novus的目標是在使用者會話發生後的幾分鐘內自動彌合這一差距。