AI News HubLIVE
站内改写2 分钟阅读

使用OpenEvals快速开始评估LLM

OpenEvals和AgentEvals提供了预构建的评估器,支持LLM-as-judge、结构化数据和代理轨迹评估。这些开源包帮助开发者快速建立评估流程,确保LLM应用可靠性。

评估(Evaluation)对于将可靠的LLM驱动应用或代理投入生产至关重要,但从头开始构建评估往往令人无从下手。LangChain新推出的openevals和agentevals包提供了一套评估器和一个通用框架,可帮助开发者轻松起步。

什么是评估? 评估提供了系统化的方法,根据应用的关键标准判断LLM输出质量。评估包含两个组成部分:评估数据和评估指标。评估数据的质量和多样性直接影响评估反映实际使用情况的程度。在创建评估之前,应花时间针对具体用例整理数据集——只需少量高质量数据点即可开始。评估指标也通常因应用目标而异,但常见评估类型存在共性。openevals和agentevals正是基于这些共性,提供了预构建的解决方案,展示评估趋势和最佳实践。

常见评估类型与最佳实践 评估类型众多,openevals首先聚焦于最常用且实用的技术,从两个方向入手:一、使广泛适用的评估器易于定制:LLM-as-judge评估器应用最广,openevals使其预构建示例易于针对具体用例定制;二、构建特定用例评估器:从文档结构化内容提取、工具调用和代理轨迹等常见场景开始,后续计划扩展到RAG应用或多智能体架构等场景。

LLM-as-judge评估器 此类评估器使用LLM对应用输出进行评分,适用于自然语言输出评估。应用场景包括:聊天机器人对话质量、摘要或问答系统的幻觉检测、写作质量和连贯性。LLM-as-judge评估可无参考进行,无需真实答案。openevals提供预构建提示模板、少样本示例集成、简化评分模式设置,并生成推理注释以提高透明度。

结构化数据评估器 许多LLM应用涉及从文档提取结构化输出或为工具调用生成结构化输出。openevals支持精确匹配或LLM-as-judge验证结构化输出,并可选聚合评分以提供整体性能视图。

代理评估:轨迹评估 构建代理时,不仅关注最终输出,还需理解代理达成结果的行动序列。AgentEvals提供代理轨迹评估,检查工具选择顺序或使用LLM-as-judge评估轨迹;对于LangGraph应用,还可使用图轨迹评估确保代理调用正确节点。

使用LangSmith跟踪结果 建议将评估结果记录到LangSmith,以便随时间跟踪和团队共享。LangSmith提供追踪、评估和实验工具,帮助构建生产级LLM应用。Elastic、Klarna和Podium等公司已使用LangSmith评估其生成式AI应用。

未来计划 这仅是规范不同应用类型评估实践的开始。未来几周将新增更多常见用例的评估器,以及更多代理测试评估器。欢迎在GitHub仓库(openevals和agentevals)提交反馈或贡献代码。