AI News HubLIVE
站内改写2 分钟阅读

分享 LangSmith 基准测试

LangSmith 推出公开基准测试和评估数据集共享功能,帮助开发者比较不同 LLM 架构在相同任务上的表现。首发数据集为 LangChain 文档问答数据集,并发布了 langchain-benchmarks 包以支持实验。文章分析了多种模型和架构的性能,并提供了调试方法。

在将 LLM 应用投入生产时,测试和评估是开发者面临的最大痛点。随着新模型、检索技术、代理类型和认知架构的不断涌现,这一挑战愈发严峻。LangSmith 在过去几个月已成为 LLM 架构评估的首选平台,支持测试比较视图和数据集管理。如今,LangSmith 进一步推出评估数据集和结果的共享功能,让社区驱动的基准测试成为现实。同时发布的 langchain-benchmarks 包使开发者能够轻松复现结果并试验自己的架构。

测试共享功能允许任何 LangSmith 用户发布不同架构在相同任务上的所有数据和指标。每个评估结果不仅包含最终指标,还附带了完整的执行追踪,让用户能够超越聚合统计,深入观察每一步的执行细节。

首个发布的基准测试是 LangChain 文档问答数据集。该数据集包含手工编写的问题-答案对,旨在测试 RAG 系统在需要跨文档综合回答或处理与文档知识冲突的问题时的能力。初始评估覆盖了多种实现,包括不同语言模型(OpenAI、Anthropic、开源模型)和认知架构(对话检索链、代理)。

在简单 RAG 方法比较中,使用相同检索器的不同模型表现各异。例如,GPT-4 的准确率得分最高(0.50),而 Zephyr-7b-beta 的准确率较低(0.31)。在代理架构中,OpenAI Assistant API 取得了最高性能(0.62),而基于 GPT-3.5 的函数调用代理得分 0.47。这些结果可通过链接查看详细追踪。

通过手动检查数据点,开发者能识别弱点。例如,当问题涉及“知识的缺失”时,GPT-3.5 可能产生幻觉,编造出不存在的文档链接;而 Mistral 模型则更谨慎,避免不准确回答。通过追踪,发现检索到的文档与问题不相关,从而指导优化提示或检索策略。另一个例子中,Mistral 模型因文档顺序而错误回答,GPT-3.5 则正确。通过调整文档顺序即可改进。

除了准确率,延迟也是重要指标。开源模型如 Mistral 7B 在速度上有优势,但准确率较低。总体而言,闭源 API 在开箱即用情况下表现更好,但适当的提示工程可缩小差距。LangSmith 的公共基准测试为社区提供了宝贵的参考,帮助开发者基于实际数据做出决策。

分享 LangSmith 基准测试 | AI News Hub