2026-06-16站内改写2 分钟阅读更新: 2026-06-16

分享 LangSmith 基准测试

LangSmith 推出公开基准测试和评估数据集共享功能，帮助开发者比较不同 LLM 架构在相同任务上的表现。首发数据集为 LangChain 文档问答数据集，并发布了 langchain-benchmarks 包以支持实验。文章分析了多种模型和架构的性能，并提供了调试方法。

来源LangChain Blog

在将 LLM 应用投入生产时，测试和评估是开发者面临的最大痛点。随着新模型、检索技术、代理类型和认知架构的不断涌现，这一挑战愈发严峻。LangSmith 在过去几个月已成为 LLM 架构评估的首选平台，支持测试比较视图和数据集管理。如今，LangSmith 进一步推出评估数据集和结果的共享功能，让社区驱动的基准测试成为现实。同时发布的 langchain-benchmarks 包使开发者能够轻松复现结果并试验自己的架构。

测试共享功能允许任何 LangSmith 用户发布不同架构在相同任务上的所有数据和指标。每个评估结果不仅包含最终指标，还附带了完整的执行追踪，让用户能够超越聚合统计，深入观察每一步的执行细节。

首个发布的基准测试是 LangChain 文档问答数据集。该数据集包含手工编写的问题-答案对，旨在测试 RAG 系统在需要跨文档综合回答或处理与文档知识冲突的问题时的能力。初始评估覆盖了多种实现，包括不同语言模型（OpenAI、Anthropic、开源模型）和认知架构（对话检索链、代理）。

在简单 RAG 方法比较中，使用相同检索器的不同模型表现各异。例如，GPT-4 的准确率得分最高（0.50），而 Zephyr-7b-beta 的准确率较低（0.31）。在代理架构中，OpenAI Assistant API 取得了最高性能（0.62），而基于 GPT-3.5 的函数调用代理得分 0.47。这些结果可通过链接查看详细追踪。

通过手动检查数据点，开发者能识别弱点。例如，当问题涉及“知识的缺失”时，GPT-3.5 可能产生幻觉，编造出不存在的文档链接；而 Mistral 模型则更谨慎，避免不准确回答。通过追踪，发现检索到的文档与问题不相关，从而指导优化提示或检索策略。另一个例子中，Mistral 模型因文档顺序而错误回答，GPT-3.5 则正确。通过调整文档顺序即可改进。

除了准确率，延迟也是重要指标。开源模型如 Mistral 7B 在速度上有优势，但准确率较低。总体而言，闭源 API 在开箱即用情况下表现更好，但适当的提示工程可缩小差距。LangSmith 的公共基准测试为社区提供了宝贵的参考，帮助开发者基于实际数据做出决策。