智能体可观测性需要反馈以驱动学习
本文由LangChain创始人Harrison Chase撰写,阐述了智能体可观测性的核心价值不仅是调试,而是驱动学习循环。他强调,仅靠追踪是不够的,必须结合反馈信号(用户反馈、间接信号、大模型评判、规则等)才能系统地改进模型、框架和上下文。文章详细探讨了学习发生的多个层面(模型、框架、上下文),以及如何通过追踪与反馈结合实现人工或自动化的持续改进。最后,他指出一个完善的可观测性平台应具备存储追踪、存储反馈和生成反馈三大能力。
文章情报
要点
- 智能体可观测性的核心是驱动学习,而不仅仅是调试。
- 反馈信号(用户、间接、LLM评判、规则)将追踪从被动记录转化为训练信号。
- 学习可在模型、框架、上下文三个层面发生,均依赖追踪与反馈。
- 可观测性平台需要存储追踪、存储反馈并自动生成反馈。
为什么重要
这条新闻值得关注,因为智能体可观测性的核心是驱动学习,而不仅仅是调试。
技术影响
可能影响模型选型、推理成本、产品能力和评测基准。
大多数团队最初将智能体可观测性视为调试工具。当出现问题时,开发者打开追踪链,检查每一步,找出智能体在哪一步做出了错误决策。这种用法确实有用,但视野过于狭窄。
可观测性的更深层角色是驱动学习。然而,仅靠追踪本身无法形成这一循环。还需要反馈——即那些能够告诉你智能体行为是否有用、被接受、被拒绝、低效、存在风险或出错的信号。这种学习不限于模型训练意义上的学习,而是贯穿整个智能体系统:模型应该做什么、框架应如何引导模型、需要哪些上下文、哪些故障模式反复出现、哪些行为真正对用户有效。
追踪不仅仅是事件记录,反馈也不仅仅是最后给出的评分。二者结合,构成了系统改进的原始素材。
学习可以发生在多个层面。模型层面:你可能发现模型在特定示例中持续错误分类请求、选错工具或未能遵守策略。这些追踪可用于通过监督微调或强化学习来更新模型权重。框架层面:框架是模型周围的一切,包括提示词、工具架构、权限检查、控制流、记忆更新逻辑、路由、重试和护栏。追踪可能显示,模型能力本身没问题,但脚手架错了——比如工具描述模糊、缺少读前写后约束、系统提示词做出了错误权衡。上下文层面:智能体对提供的信息极其敏感,包括检索文档、记忆、用户偏好、工具结果、先前轮次和环境状态。追踪可以揭示,模型在接收到错误或缺失上下文的情况下做出了合理决策。这种情况下的学习循环应改进上下文的检索、存储、压缩或丢弃。这里通常被称为记忆。
关键点在于,所有这些学习循环都由追踪驱动。如果不知道智能体看到了什么、做了什么、以及随后发生了什么,就无法可靠地知道该改进什么。这就是为什么智能体可观测性驱动智能体评估——追踪让智能体行为变得可见。
学习可以是人工驱动或自动化的。人工驱动:开发者查看追踪,发现智能体调用了错误工具,然后更新提示词或工具架构。产品经理查看一组失败对话,意识到产品需要新工作流。标注员标记追踪,以便团队构建更好的评估数据集。这仍然是学习,只是有人类在其中。自动化:系统可采样生产追踪,运行在线评估,检测已知故障模式,将示例添加到数据集,或在发现异常时触发审查队列。智能体本身不需要自动改进,自动化只需识别哪些追踪值得关注,并将其转化为结构化反馈。
对于单个低流量智能体,手动审查可能足够。但对于大量智能体或高流量生产环境,这就变成了基础设施问题:需要捕获追踪、过滤、评分、路由,并保留重要的那些。
追踪是必要的,但并不充分。追踪告诉你发生了什么,但本身并不告诉你发生的事是好是坏。这个区别很重要:智能体可能在40步内完成一项任务,但同样的任务本应只需6步;它可能给出自信的最终答案,但用户可能拒绝了它;它可能避免了报错,但仍然未能满足用户意图;它可能调用了正确的工具,但参数有微妙错误。
要从追踪中学习,需要将反馈附加到追踪上。反馈将可观测性从被动记录转变为训练信号、调试信号、产品信号或评估信号。没有反馈,你只有一大堆轨迹;有了反馈,你就可以开始提出有用的问题:哪些轨迹代表成功?哪些代表失败?失败是由模型、框架还是上下文引起的?哪些失败值得转化为评估?哪些行为在随时间改善?
核心要求是:将反馈与智能体可观测性数据一起存储。
反馈可以来自多种渠道。最明显的是直接用户反馈:点赞、踩、星级评分或文字纠正。这种信号易于理解,但通常稀疏,大多数用户不会留下显式反馈。其次是间接用户反馈:对于编码智能体,可能是接受的行数、还原的差异、编辑后通过的测试,或者用户是否保留了生成的更改;对于支持智能体,可能是用户是否重新打开了工单;对于研究智能体,可能是用户是否复制了答案或再次提出相同问题。这些信号比显式评分更嘈杂,但往往更丰富。你还可以使用大模型作为评判生成反馈:评判器可以评估答案是否有帮助、智能体是否遵守策略、轨迹是否可疑。这可以在规模上运行,尤其适合在在线评估中处理生产追踪。虽然不是完美,需要校准,但它为团队提供了一种在人类审查太慢时创建结构化反馈的方式。最后,反馈可以是确定性的:规则和正则表达式常被低估。如果已知某种故障模式,就将其编码;如果智能体未经批准不应调用破坏性命令,就检查它;如果响应应包含引用,就验证它;如果编码智能体显示用户挫败迹象,就检测它。
Claude Code的泄露事件使这一点具体化。多篇报道发现,Claude Code使用正则表达式在userPromptKeywords.ts中检测用户提示中的挫败词汇和短语。PCWorld报道该正则表达式查找“wtf”“horrible”“awful”“this sucks”等词。从工程角度看,这一模式具有启发性:并非每个反馈信号都需要模型调用。如果一条廉价规则就能捕获有用信号,就使用它——并清楚说明该信号如何存储和使用。
综上所述,可观测性平台需要具备三项核心能力。第一,存储追踪:这是基础层,需要完整的智能体行为轨迹,包括模型调用、工具调用、输入输出、元数据、计时、错误和中间状态。理想情况下,能兼容各种框架,而不限于某一个。LangSmith支持来自30多个框架的追踪,并能通过OpenTelemetry集成。第二,存储反馈:反馈不应孤立于追踪之外的电子表格或分析系统。它应直接附加到所评估的运行、追踪或线程上,从而允许按反馈过滤、比较好坏轨迹、从真实失败构建数据集、跟踪更改是否改善了重要行为。LangSmith支持捕获反馈并将其与追踪关联。第三,生成反馈:部分反馈来自用户,但更多有用反馈应由系统自身产生,包括规则、评估器、采样、标注队列、告警以及对历史追踪的回填。LangSmith支持自动化规则和在线评估,包括在生产追踪上运行的大模型评判。
这就是智能体团队需要的产品形态:存储追踪、存储反馈、生成反馈。学习循环依赖于追踪加反馈。可观测性的目的不仅是查看追踪,而是从中学习。追踪告诉你发生了什么,反馈告诉你它的含义。两者结合,让你能改进模型、框架和上下文;支持人工调试和自动化评估;将生产行为转化为数据集、规则、告警和回归测试。
没有反馈的智能体可观测性是不完整的。你可以检查行为,但无法系统地从中学习。为了最大化智能体可观测性的价值,请将反馈与你的追踪一同存储。这就是将智能体追踪从日志转变为学习系统的关键。