AI News HubLIVE
站内改写2 分钟阅读

使用Fireworks构建成本降低100倍的追踪评判器

LangChain与Fireworks合作微调开放模型,从生产追踪中挖掘感知错误信号,以极低成本达到前沿模型性能。

LangChain实验室近日宣布与Fireworks合作,成功构建了一款成本降低100倍的追踪评判器。该评判器基于Qwen-3.5-35B模型进行微调,能够高效检测生产追踪中的“感知错误”信号,性能达到甚至超越前沿模型,同时运行成本仅为后者的百分之一。

LangSmith平台每天处理数十亿个token的生产追踪数据。随着代理系统在生产环境中广泛应用,追踪成为理解系统行为的重要数据源。然而,如何经济高效地从每条追踪中挖掘关键信号成为核心挑战。LangChain与Fireworks的合作正是为了解决这一问题。

感知错误被定义为用户认为助手犯错或需要纠正的情况,而非客观正确性或用户满意度。例如,助手可能给出了正确答案,但用户因信息本身(而非助手)感到沮丧。感知错误信号可通过用户纠正、拒绝代理操作、重复请求以及助手承认错误等追踪信号推断。LangChain认为,感知错误是一种通用评估指标,适用于各种应用场景。

为训练模型,团队从两个内部数据集——chat-langchain(技术问答)和Fleet(无代码代理工具)——中选取了多轮追踪样本。数据准备阶段仅保留人类和AI消息,忽略工具调用,并保留完整消息内容。标签生成采用模型辅助标记与人工审核相结合的方式:首先让一组模型判断追踪是否包含感知错误,若意见一致则采用;否则交由另一组模型仲裁;若仍不一致则由人工标注。最终,chat-langchain和Fleet数据集中分别有24%和18%的追踪被标注为感知错误。

微调实验围绕三个问题展开:微调能否提升基准评判质量至前沿模型水平?学习到的评判器能否跨数据集迁移?服务微调模型是否成本效益高?结果显示,经过LoRA SFT微调的Qwen模型在分类准确率上接近或超越前沿模型,且仅使用chat-langchain数据训练的模型在Fleet数据集上表现优于所有前沿模型,证明了其良好的迁移能力。在成本方面,微调模型比前沿模型便宜10到100倍,具体取决于追踪量。

未来,LangChain计划继续研究持续学习和追踪理解,并帮助团队设计训练目标与评估准则,以构建自定义的代理追踪评估器。目前,感知错误模型已开放早期测试申请,预计未来一到两个月内面向更多用户推出。