2026-06-15站内改写1 分钟阅读更新: 2026-06-15

推出 Align Evals：简化 LLM 应用评估

LangSmith 的新功能 Align Evals 帮助开发者校准评估器，使其更符合人类偏好，从而减少评估分数与人工判断之间的差异。

在人工智能应用的开发中，评估是提升应用质量的关键技术。无论是处理单个提示还是复杂的智能体，评估都能为输出评分，帮助理解变更的影响。然而，许多团队遇到一个常见问题：评估分数与团队预期的结果不一致。这种不匹配会导致比较结果充满噪声，并浪费时间去追踪错误的信号。为了解决这一难题，LangSmith 推出了 Align Evals 功能，旨在帮助用户校准评估器，使其更准确地反映人类偏好。该功能受 Eugene Yan 关于构建 LLM-as-a-judge 评估器文章的启发，现已向所有 LangSmith Cloud 用户开放，并计划于本周晚些时候支持自托管部署。

Align Evals 的核心在于通过人机对比迭代优化评估提示。首先，用户需要为应用中的典型输入（包括正确和错误的输出）手动评分，形成“黄金标准”数据集。然后，创建 LLM 评估提示，并在类似 Playground 的界面中测试其与人工评分的一致性。系统会显示对齐分数，并高亮显示偏差较大的案例，便于用户针对性地调整提示。每次修改后，系统会保存基线分数，以便比较不同版本的效果。具体工作流程包括四个步骤：选择评估标准、选取数据进行人工审查、为数据打上预期分数、创建评估提示并与人工评分对比。例如，如果 LLM 经常对某些回答给出过高评分，可以在提示中添加更清晰的负面标准。整个过程是迭代的，旨在提升评估的可靠性。

未来，LangSmith 计划加入分析功能以追踪评估器性能的演变，并实现自动提示优化。开发人员可以通过 LangSmith 文档和视频教程快速上手，并在 LangChain 社区论坛中提供反馈。Align Evals 的推出使得创建高质量的 LLM-as-a-judge 评估器变得更加容易，有望显著提升 LLM 应用评估的准确性和效率。