2026-06-15站内改写2 分钟阅读更新: 2026-06-15

使用Fireworks构建成本降低100倍的追踪评判器

LangChain与Fireworks合作微调开放模型，从生产追踪中挖掘感知错误信号，以极低成本达到前沿模型性能。

LangChain实验室近日宣布与Fireworks合作，成功构建了一款成本降低100倍的追踪评判器。该评判器基于Qwen-3.5-35B模型进行微调，能够高效检测生产追踪中的“感知错误”信号，性能达到甚至超越前沿模型，同时运行成本仅为后者的百分之一。

LangSmith平台每天处理数十亿个token的生产追踪数据。随着代理系统在生产环境中广泛应用，追踪成为理解系统行为的重要数据源。然而，如何经济高效地从每条追踪中挖掘关键信号成为核心挑战。LangChain与Fireworks的合作正是为了解决这一问题。

感知错误被定义为用户认为助手犯错或需要纠正的情况，而非客观正确性或用户满意度。例如，助手可能给出了正确答案，但用户因信息本身（而非助手）感到沮丧。感知错误信号可通过用户纠正、拒绝代理操作、重复请求以及助手承认错误等追踪信号推断。LangChain认为，感知错误是一种通用评估指标，适用于各种应用场景。

为训练模型，团队从两个内部数据集——chat-langchain（技术问答）和Fleet（无代码代理工具）——中选取了多轮追踪样本。数据准备阶段仅保留人类和AI消息，忽略工具调用，并保留完整消息内容。标签生成采用模型辅助标记与人工审核相结合的方式：首先让一组模型判断追踪是否包含感知错误，若意见一致则采用；否则交由另一组模型仲裁；若仍不一致则由人工标注。最终，chat-langchain和Fleet数据集中分别有24%和18%的追踪被标注为感知错误。

微调实验围绕三个问题展开：微调能否提升基准评判质量至前沿模型水平？学习到的评判器能否跨数据集迁移？服务微调模型是否成本效益高？结果显示，经过LoRA SFT微调的Qwen模型在分类准确率上接近或超越前沿模型，且仅使用chat-langchain数据训练的模型在Fleet数据集上表现优于所有前沿模型，证明了其良好的迁移能力。在成本方面，微调模型比前沿模型便宜10到100倍，具体取决于追踪量。

未来，LangChain计划继续研究持续学习和追踪理解，并帮助团队设计训练目标与评估准则，以构建自定义的代理追踪评估器。目前，感知错误模型已开放早期测试申请，预计未来一到两个月内面向更多用户推出。