2026-04-30站内改写

测试运行对比功能

LangSmith 推出了测试运行对比功能，允许用户并排查看多个测试运行的结果，结合人工检查和自动评估，更高效地优化 LLM 应用。

文章情报

工程师入门

要点

测试运行对比支持并排查看多个测试运行，便于比较。
用户可以使用 LLM 辅助评估或正则表达式获得初步分数，再手动深入分析。
通过筛选器快速定位表现差异大的数据点，辅助应用改进。

为什么重要

这条新闻值得关注，因为测试运行对比支持并排查看多个测试运行，便于比较。

技术影响

可能影响模型选型、推理成本、产品能力和评测基准。

LangSmith 团队今日宣布推出测试运行对比功能，旨在帮助开发者更直观地比较不同测试运行的效果，从而加速 LLM 应用的迭代与优化。

在 LLM 应用开发中，评估始终是一个公认的难题。定量评估提示词、链或代理变化的影响非常困难。尽管 LangChain 团队对 LLM 辅助评估持乐观态度，但他们也承认完全信任自动评估并不容易。OpenAI 的 Jason Wei 曾指出，顶尖 AI 研究人员愿意手动检查大量数据，并构建基础设施以快速完成这一过程。他认为，手动检查数据虽然不引人注目，但能提供对问题的宝贵直觉。

基于这一洞察，LangSmith 在最初版本支持运行测试和 LLM 辅助评分的基础上，发现了两个常见的使用模式：用户仍然对直接信任 LLM 辅助评估犹豫不决，并且他们不仅希望单独评分测试运行，还希望与之前的迭代进行比较。因此，测试运行对比功能应运而生。

具体操作流程如下：首先，在数据集中设置并运行测试。然后，在数据集内选择两个或多个测试运行，点击“比较”按钮，即可进入对比视图。该视图并排显示每个数据点的输入、参考输出、实际输出，以及评估指标、耗时和延迟。如需深入查看某个数据点，点击该行会弹出侧边栏，显示运行细节，并可通过上下箭头（▲和▼）在不同运行间切换。

此外，对比视图为每一列提供了类似 Excel 的筛选器。LangSmith 团队推荐的使用方法是：筛选一个测试运行中正确的数据点，同时筛选另一个测试运行中错误的数据点，这样可以快速定位两个运行之间的显著差异，便于发现变化原因。

构建 LLM 应用的关键在于理解模型在特定任务上的行为。设置评估数据集并轻松比较同一数据集上的运行结果，对于培养这种理解至关重要。LangSmith 的测试运行对比功能正是为了解决这一问题而设计的。目前 LangSmith 处于内测阶段，用户可注册候补名单。团队将在未来几周内逐步开放更多访问权限，并继续添加类似功能。