2026-04-30站内改写

使用LangSmith进行回归测试

LangSmith 的回归测试功能帮助 AI 工程师通过比较实验、跟踪性能并深入分析运行间的变化，自信地评估和迭代 LLM 应用。与传统的软件测试不同，AI 测试可能无法获得满分，因此随时间追踪结果并比较单个数据点至关重要。LangSmith 提供了比较视图、显示选项、基线运行中自动高亮变化的数据点、过滤以及展开行详细查看等功能，使快速迭代和探索数据变得简单。

文章情报

工程师入门

要点

LangSmith 改进了 LLM 应用的回归测试流程。
AI 测试不同于传统软件测试，需要跟踪性能变化。
比较视图可同时查看多个实验，并具有灵活的显示选项。
通过基线运行自动高亮指标增减的数据点，支持过滤和详细查看。

为什么重要

这条新闻值得关注，因为LangSmith 改进了 LLM 应用的回归测试流程。

技术影响

可能影响模型选型、推理成本、产品能力和评测基准。

LangSmith 最近对其回归测试体验进行了显著改进，旨在帮助 AI 工程师快速、可靠地评估和迭代 LLM 应用。高效的测试和实验过程通常包括设置输入数据集（以及可选的预期输出）和定义评估标准，从而评估不同的提示、模型和认知架构。

与传统的软件测试不同，AI 应用在评估数据集上可能无法获得满分。这一差异带来了两个关键需求：首先，需要随时间追踪测试结果，以确保性能持续提升；其次，需要能够比较两次或多次运行之间的单个数据点，以了解模型在哪些数据点上表现变好或变坏。OpenAI 研究员 Jason Wei 曾指出，优秀的 AI 研究者愿意手动检查大量数据，并构建基础设施以快速完成这一过程。LangSmith 团队正是基于这一理念，对回归测试流程进行了重大改进。

新的回归测试功能围绕三个核心方面构建。第一，比较视图允许用户选择多个实验（至少两个，通常三到四个），在一个界面中同时查看所有结果。第二，显示选项提供高度控制，用户可以根据需要选择查看高级概览、详细文本或每次调用的延迟等信息。第三，也是最关键的，系统自动设置基线运行，并基于评估指标高亮显示与基线相比增加或减少的数据点，用绿色或红色标记相应的单元格。

此外，用户可以通过列顶部的切换开关快速筛选出仅发生变化的数据点，从而聚焦于最有趣的样本。一旦找到感兴趣的某一行，可以展开该行以获得更全面和具体的视图，查看该数据点在不同运行下的表现。这些功能使得跨多次评估运行的数据探索变得轻松，大大加快了迭代速度。LangSmith 团队表示，这些特性体现了 AI 测试与传统软件测试的本质区别，并计划在未来推出更多简化比较的功能。