2026-05-06站内改写

智能体可观测性需要反馈以驱动学习

本文由LangChain创始人Harrison Chase撰写，阐述了智能体可观测性的核心价值不仅是调试，而是驱动学习循环。他强调，仅靠追踪是不够的，必须结合反馈信号（用户反馈、间接信号、大模型评判、规则等）才能系统地改进模型、框架和上下文。文章详细探讨了学习发生的多个层面（模型、框架、上下文），以及如何通过追踪与反馈结合实现人工或自动化的持续改进。最后，他指出一个完善的可观测性平台应具备存储追踪、存储反馈和生成反馈三大能力。

文章情报

工程师中级

要点

智能体可观测性的核心是驱动学习，而不仅仅是调试。
反馈信号（用户、间接、LLM评判、规则）将追踪从被动记录转化为训练信号。
学习可在模型、框架、上下文三个层面发生，均依赖追踪与反馈。
可观测性平台需要存储追踪、存储反馈并自动生成反馈。

为什么重要

这条新闻值得关注，因为智能体可观测性的核心是驱动学习，而不仅仅是调试。

技术影响

可能影响模型选型、推理成本、产品能力和评测基准。

大多数团队最初将智能体可观测性视为调试工具。当出现问题时，开发者打开追踪链，检查每一步，找出智能体在哪一步做出了错误决策。这种用法确实有用，但视野过于狭窄。

可观测性的更深层角色是驱动学习。然而，仅靠追踪本身无法形成这一循环。还需要反馈——即那些能够告诉你智能体行为是否有用、被接受、被拒绝、低效、存在风险或出错的信号。这种学习不限于模型训练意义上的学习，而是贯穿整个智能体系统：模型应该做什么、框架应如何引导模型、需要哪些上下文、哪些故障模式反复出现、哪些行为真正对用户有效。

追踪不仅仅是事件记录，反馈也不仅仅是最后给出的评分。二者结合，构成了系统改进的原始素材。

学习可以发生在多个层面。模型层面：你可能发现模型在特定示例中持续错误分类请求、选错工具或未能遵守策略。这些追踪可用于通过监督微调或强化学习来更新模型权重。框架层面：框架是模型周围的一切，包括提示词、工具架构、权限检查、控制流、记忆更新逻辑、路由、重试和护栏。追踪可能显示，模型能力本身没问题，但脚手架错了——比如工具描述模糊、缺少读前写后约束、系统提示词做出了错误权衡。上下文层面：智能体对提供的信息极其敏感，包括检索文档、记忆、用户偏好、工具结果、先前轮次和环境状态。追踪可以揭示，模型在接收到错误或缺失上下文的情况下做出了合理决策。这种情况下的学习循环应改进上下文的检索、存储、压缩或丢弃。这里通常被称为记忆。

关键点在于，所有这些学习循环都由追踪驱动。如果不知道智能体看到了什么、做了什么、以及随后发生了什么，就无法可靠地知道该改进什么。这就是为什么智能体可观测性驱动智能体评估——追踪让智能体行为变得可见。

学习可以是人工驱动或自动化的。人工驱动：开发者查看追踪，发现智能体调用了错误工具，然后更新提示词或工具架构。产品经理查看一组失败对话，意识到产品需要新工作流。标注员标记追踪，以便团队构建更好的评估数据集。这仍然是学习，只是有人类在其中。自动化：系统可采样生产追踪，运行在线评估，检测已知故障模式，将示例添加到数据集，或在发现异常时触发审查队列。智能体本身不需要自动改进，自动化只需识别哪些追踪值得关注，并将其转化为结构化反馈。

对于单个低流量智能体，手动审查可能足够。但对于大量智能体或高流量生产环境，这就变成了基础设施问题：需要捕获追踪、过滤、评分、路由，并保留重要的那些。

追踪是必要的，但并不充分。追踪告诉你发生了什么，但本身并不告诉你发生的事是好是坏。这个区别很重要：智能体可能在40步内完成一项任务，但同样的任务本应只需6步；它可能给出自信的最终答案，但用户可能拒绝了它；它可能避免了报错，但仍然未能满足用户意图；它可能调用了正确的工具，但参数有微妙错误。

要从追踪中学习，需要将反馈附加到追踪上。反馈将可观测性从被动记录转变为训练信号、调试信号、产品信号或评估信号。没有反馈，你只有一大堆轨迹；有了反馈，你就可以开始提出有用的问题：哪些轨迹代表成功？哪些代表失败？失败是由模型、框架还是上下文引起的？哪些失败值得转化为评估？哪些行为在随时间改善？

核心要求是：将反馈与智能体可观测性数据一起存储。

反馈可以来自多种渠道。最明显的是直接用户反馈：点赞、踩、星级评分或文字纠正。这种信号易于理解，但通常稀疏，大多数用户不会留下显式反馈。其次是间接用户反馈：对于编码智能体，可能是接受的行数、还原的差异、编辑后通过的测试，或者用户是否保留了生成的更改；对于支持智能体，可能是用户是否重新打开了工单；对于研究智能体，可能是用户是否复制了答案或再次提出相同问题。这些信号比显式评分更嘈杂，但往往更丰富。你还可以使用大模型作为评判生成反馈：评判器可以评估答案是否有帮助、智能体是否遵守策略、轨迹是否可疑。这可以在规模上运行，尤其适合在在线评估中处理生产追踪。虽然不是完美，需要校准，但它为团队提供了一种在人类审查太慢时创建结构化反馈的方式。最后，反馈可以是确定性的：规则和正则表达式常被低估。如果已知某种故障模式，就将其编码；如果智能体未经批准不应调用破坏性命令，就检查它；如果响应应包含引用，就验证它；如果编码智能体显示用户挫败迹象，就检测它。

Claude Code的泄露事件使这一点具体化。多篇报道发现，Claude Code使用正则表达式在userPromptKeywords.ts中检测用户提示中的挫败词汇和短语。PCWorld报道该正则表达式查找“wtf”“horrible”“awful”“this sucks”等词。从工程角度看，这一模式具有启发性：并非每个反馈信号都需要模型调用。如果一条廉价规则就能捕获有用信号，就使用它——并清楚说明该信号如何存储和使用。

综上所述，可观测性平台需要具备三项核心能力。第一，存储追踪：这是基础层，需要完整的智能体行为轨迹，包括模型调用、工具调用、输入输出、元数据、计时、错误和中间状态。理想情况下，能兼容各种框架，而不限于某一个。LangSmith支持来自30多个框架的追踪，并能通过OpenTelemetry集成。第二，存储反馈：反馈不应孤立于追踪之外的电子表格或分析系统。它应直接附加到所评估的运行、追踪或线程上，从而允许按反馈过滤、比较好坏轨迹、从真实失败构建数据集、跟踪更改是否改善了重要行为。LangSmith支持捕获反馈并将其与追踪关联。第三，生成反馈：部分反馈来自用户，但更多有用反馈应由系统自身产生，包括规则、评估器、采样、标注队列、告警以及对历史追踪的回填。LangSmith支持自动化规则和在线评估，包括在生产追踪上运行的大模型评判。

这就是智能体团队需要的产品形态：存储追踪、存储反馈、生成反馈。学习循环依赖于追踪加反馈。可观测性的目的不仅是查看追踪，而是从中学习。追踪告诉你发生了什么，反馈告诉你它的含义。两者结合，让你能改进模型、框架和上下文；支持人工调试和自动化评估；将生产行为转化为数据集、规则、告警和回归测试。

没有反馈的智能体可观测性是不完整的。你可以检查行为，但无法系统地从中学习。为了最大化智能体可观测性的价值，请将反馈与你的追踪一同存储。这就是将智能体追踪从日志转变为学习系统的关键。