2026-06-15站内改写2 分钟阅读更新: 2026-06-15

使用OpenEvals快速开始评估LLM

OpenEvals和AgentEvals提供了预构建的评估器，支持LLM-as-judge、结构化数据和代理轨迹评估。这些开源包帮助开发者快速建立评估流程，确保LLM应用可靠性。

评估（Evaluation）对于将可靠的LLM驱动应用或代理投入生产至关重要，但从头开始构建评估往往令人无从下手。LangChain新推出的openevals和agentevals包提供了一套评估器和一个通用框架，可帮助开发者轻松起步。

什么是评估？评估提供了系统化的方法，根据应用的关键标准判断LLM输出质量。评估包含两个组成部分：评估数据和评估指标。评估数据的质量和多样性直接影响评估反映实际使用情况的程度。在创建评估之前，应花时间针对具体用例整理数据集——只需少量高质量数据点即可开始。评估指标也通常因应用目标而异，但常见评估类型存在共性。openevals和agentevals正是基于这些共性，提供了预构建的解决方案，展示评估趋势和最佳实践。

常见评估类型与最佳实践评估类型众多，openevals首先聚焦于最常用且实用的技术，从两个方向入手：一、使广泛适用的评估器易于定制：LLM-as-judge评估器应用最广，openevals使其预构建示例易于针对具体用例定制；二、构建特定用例评估器：从文档结构化内容提取、工具调用和代理轨迹等常见场景开始，后续计划扩展到RAG应用或多智能体架构等场景。

LLM-as-judge评估器此类评估器使用LLM对应用输出进行评分，适用于自然语言输出评估。应用场景包括：聊天机器人对话质量、摘要或问答系统的幻觉检测、写作质量和连贯性。LLM-as-judge评估可无参考进行，无需真实答案。openevals提供预构建提示模板、少样本示例集成、简化评分模式设置，并生成推理注释以提高透明度。

结构化数据评估器许多LLM应用涉及从文档提取结构化输出或为工具调用生成结构化输出。openevals支持精确匹配或LLM-as-judge验证结构化输出，并可选聚合评分以提供整体性能视图。

代理评估：轨迹评估构建代理时，不仅关注最终输出，还需理解代理达成结果的行动序列。AgentEvals提供代理轨迹评估，检查工具选择顺序或使用LLM-as-judge评估轨迹；对于LangGraph应用，还可使用图轨迹评估确保代理调用正确节点。

使用LangSmith跟踪结果建议将评估结果记录到LangSmith，以便随时间跟踪和团队共享。LangSmith提供追踪、评估和实验工具，帮助构建生产级LLM应用。Elastic、Klarna和Podium等公司已使用LangSmith评估其生成式AI应用。

未来计划这仅是规范不同应用类型评估实践的开始。未来几周将新增更多常见用例的评估器，以及更多代理测试评估器。欢迎在GitHub仓库（openevals和agentevals）提交反馈或贡献代码。