测试运行对比功能
LangSmith 推出了测试运行对比功能,允许用户并排查看多个测试运行的结果,结合人工检查和自动评估,更高效地优化 LLM 应用。
文章情报
要点
- 测试运行对比支持并排查看多个测试运行,便于比较。
- 用户可以使用 LLM 辅助评估或正则表达式获得初步分数,再手动深入分析。
- 通过筛选器快速定位表现差异大的数据点,辅助应用改进。
为什么重要
这条新闻值得关注,因为测试运行对比支持并排查看多个测试运行,便于比较。
技术影响
可能影响模型选型、推理成本、产品能力和评测基准。
LangSmith 团队今日宣布推出测试运行对比功能,旨在帮助开发者更直观地比较不同测试运行的效果,从而加速 LLM 应用的迭代与优化。
在 LLM 应用开发中,评估始终是一个公认的难题。定量评估提示词、链或代理变化的影响非常困难。尽管 LangChain 团队对 LLM 辅助评估持乐观态度,但他们也承认完全信任自动评估并不容易。OpenAI 的 Jason Wei 曾指出,顶尖 AI 研究人员愿意手动检查大量数据,并构建基础设施以快速完成这一过程。他认为,手动检查数据虽然不引人注目,但能提供对问题的宝贵直觉。
基于这一洞察,LangSmith 在最初版本支持运行测试和 LLM 辅助评分的基础上,发现了两个常见的使用模式:用户仍然对直接信任 LLM 辅助评估犹豫不决,并且他们不仅希望单独评分测试运行,还希望与之前的迭代进行比较。因此,测试运行对比功能应运而生。
具体操作流程如下:首先,在数据集中设置并运行测试。然后,在数据集内选择两个或多个测试运行,点击“比较”按钮,即可进入对比视图。该视图并排显示每个数据点的输入、参考输出、实际输出,以及评估指标、耗时和延迟。如需深入查看某个数据点,点击该行会弹出侧边栏,显示运行细节,并可通过上下箭头(▲和▼)在不同运行间切换。
此外,对比视图为每一列提供了类似 Excel 的筛选器。LangSmith 团队推荐的使用方法是:筛选一个测试运行中正确的数据点,同时筛选另一个测试运行中错误的数据点,这样可以快速定位两个运行之间的显著差异,便于发现变化原因。
构建 LLM 应用的关键在于理解模型在特定任务上的行为。设置评估数据集并轻松比较同一数据集上的运行结果,对于培养这种理解至关重要。LangSmith 的测试运行对比功能正是为了解决这一问题而设计的。目前 LangSmith 处于内测阶段,用户可注册候补名单。团队将在未来几周内逐步开放更多访问权限,并继续添加类似功能。