Pendo如何利用LangSmith追踪Novus:从用户行为到代码修复
Pendo使用LangSmith对AI产品代理Novus进行调试、评估和监控,该代理将行为数据和会话回放转化为代码修复。LangSmith在生产环境中提供完整追踪,帮助Pendo在几天内将Novus交付生产,成功率达90%以上,并节省25%的评估新用例时间。
Pendo首席AI官Zain Lakhani在LangChain博客上发表文章,详细介绍了该公司如何利用LangSmith构建和监控其AI产品代理Novus。Novus旨在解决现代软件开发中一个日益严重的问题:AI编码工具加速了代码交付,却破坏了产品反馈循环。开发人员快速部署代码,但缺乏用户验收测试,导致难以使用的软件上线。Novus通过分析用户行为数据和会话回放,自动识别可用性问题并生成代码修复,从而闭环从部署到迭代的流程。
Novus的工作原理是:用户将代码库与Novus片段连接,该片段监控所有用户点击并记录会话回放。Novus聚合行为数据并利用AI进行解读,持续发现具体、可操作的问题。例如,它可能指出:“我们注意到在每日访问量达1000次的页面上,从结账到订单确认的漏斗转化率下降了3%。”其智能在于端到端分析:使用会话回放诊断根本原因(例如识别愤怒点击),将行为与相关代码文件关联,并生成建议的修复。
LangSmith在整个过程中扮演了关键角色。从最初的设计合作伙伴对话到生产部署,LangSmith一直是Pendo的代理可观测性平台。在设计合作伙伴阶段,Pendo团队每天早晨通过LangSmith的追踪视图查看用户与代理的互动,从而确定优先用例。这些用例后来成为开放测试版中的建议提示,以及评估集的基础。
在生产环境中,每一次运行都会生成完整的追踪树,包括输入、输出、工具调用、子代理调用、令牌计数和成本数据。当客户报告生成的PR未解决正确问题时,Pendo可以调出追踪并检查代理的每一步决策。嵌套结构映射了代理的组织方式,便于定位推理步骤出错的位置。
Pendo还利用追踪标签关联支持问题、客户活动和成本。每个追踪都标记有用户名、对话ID和组织,使任何支持或工程问题能直接对应相关追踪,而不是手动翻阅日志。同时,标签支持按组织级别监控成本,确保令牌支出用于最智能的模型,同时了解成本和去向。
LangSmith的使用数据还揭示了每个客户如何从Novus中获得价值。通过查看哪些组织依赖哪些用例,Pendo可以定制客户拓展和工程参与策略。此外,线程视图帮助评估多轮对话是否达到解决;反馈分数则提供对输出实际效果的信号。
一个关键发现是,早期追踪显示Novus在选择分析数据或代码上下文时往往只取其一,很少同时使用。Pendo通过调整提示,明确利用Novus的力量在于结合两者,从而避免了回到前Novus时代。
结果是:与以往产品相比,识别和评估新用例节省了25%的时间;60%的AI问题在客户发现之前就被追踪捕捉到。Novus专为那些比观察速度更快的产品团队构建,随着AI编码工具不断压缩从创意到生产的时间,部署与理解之间的差距只会扩大。Novus的目标是在用户会话发生后的几分钟内自动弥合这一差距。