推出 Align Evals:简化 LLM 应用评估
LangSmith 的新功能 Align Evals 帮助开发者校准评估器,使其更符合人类偏好,从而减少评估分数与人工判断之间的差异。
在人工智能应用的开发中,评估是提升应用质量的关键技术。无论是处理单个提示还是复杂的智能体,评估都能为输出评分,帮助理解变更的影响。然而,许多团队遇到一个常见问题:评估分数与团队预期的结果不一致。这种不匹配会导致比较结果充满噪声,并浪费时间去追踪错误的信号。为了解决这一难题,LangSmith 推出了 Align Evals 功能,旨在帮助用户校准评估器,使其更准确地反映人类偏好。该功能受 Eugene Yan 关于构建 LLM-as-a-judge 评估器文章的启发,现已向所有 LangSmith Cloud 用户开放,并计划于本周晚些时候支持自托管部署。
Align Evals 的核心在于通过人机对比迭代优化评估提示。首先,用户需要为应用中的典型输入(包括正确和错误的输出)手动评分,形成“黄金标准”数据集。然后,创建 LLM 评估提示,并在类似 Playground 的界面中测试其与人工评分的一致性。系统会显示对齐分数,并高亮显示偏差较大的案例,便于用户针对性地调整提示。每次修改后,系统会保存基线分数,以便比较不同版本的效果。具体工作流程包括四个步骤:选择评估标准、选取数据进行人工审查、为数据打上预期分数、创建评估提示并与人工评分对比。例如,如果 LLM 经常对某些回答给出过高评分,可以在提示中添加更清晰的负面标准。整个过程是迭代的,旨在提升评估的可靠性。
未来,LangSmith 计划加入分析功能以追踪评估器性能的演变,并实现自动提示优化。开发人员可以通过 LangSmith 文档和视频教程快速上手,并在 LangChain 社区论坛中提供反馈。Align Evals 的推出使得创建高质量的 LLM-as-a-judge 评估器变得更加容易,有望显著提升 LLM 应用评估的准确性和效率。