使用LangSmith进行回归测试
LangSmith 的回归测试功能帮助 AI 工程师通过比较实验、跟踪性能并深入分析运行间的变化,自信地评估和迭代 LLM 应用。与传统的软件测试不同,AI 测试可能无法获得满分,因此随时间追踪结果并比较单个数据点至关重要。LangSmith 提供了比较视图、显示选项、基线运行中自动高亮变化的数据点、过滤以及展开行详细查看等功能,使快速迭代和探索数据变得简单。
文章情报
要点
- LangSmith 改进了 LLM 应用的回归测试流程。
- AI 测试不同于传统软件测试,需要跟踪性能变化。
- 比较视图可同时查看多个实验,并具有灵活的显示选项。
- 通过基线运行自动高亮指标增减的数据点,支持过滤和详细查看。
为什么重要
这条新闻值得关注,因为LangSmith 改进了 LLM 应用的回归测试流程。
技术影响
可能影响模型选型、推理成本、产品能力和评测基准。
LangSmith 最近对其回归测试体验进行了显著改进,旨在帮助 AI 工程师快速、可靠地评估和迭代 LLM 应用。高效的测试和实验过程通常包括设置输入数据集(以及可选的预期输出)和定义评估标准,从而评估不同的提示、模型和认知架构。
与传统的软件测试不同,AI 应用在评估数据集上可能无法获得满分。这一差异带来了两个关键需求:首先,需要随时间追踪测试结果,以确保性能持续提升;其次,需要能够比较两次或多次运行之间的单个数据点,以了解模型在哪些数据点上表现变好或变坏。OpenAI 研究员 Jason Wei 曾指出,优秀的 AI 研究者愿意手动检查大量数据,并构建基础设施以快速完成这一过程。LangSmith 团队正是基于这一理念,对回归测试流程进行了重大改进。
新的回归测试功能围绕三个核心方面构建。第一,比较视图允许用户选择多个实验(至少两个,通常三到四个),在一个界面中同时查看所有结果。第二,显示选项提供高度控制,用户可以根据需要选择查看高级概览、详细文本或每次调用的延迟等信息。第三,也是最关键的,系统自动设置基线运行,并基于评估指标高亮显示与基线相比增加或减少的数据点,用绿色或红色标记相应的单元格。
此外,用户可以通过列顶部的切换开关快速筛选出仅发生变化的数据点,从而聚焦于最有趣的样本。一旦找到感兴趣的某一行,可以展开该行以获得更全面和具体的视图,查看该数据点在不同运行下的表现。这些功能使得跨多次评估运行的数据探索变得轻松,大大加快了迭代速度。LangSmith 团队表示,这些特性体现了 AI 测试与传统软件测试的本质区别,并计划在未来推出更多简化比较的功能。