2026-06-04 01:25 UTC+8站内改写2 分钟阅读更新: 2026-06-30 21:03 UTC+8

LangSmith、Langfuse 和 Arize 的智能体可观测性对比实践

本文对比了三种常用的智能体可观测性工具：LangSmith、Langfuse 和 Arize。通过设置一个基于 LangChain 的测试智能体，展示了各工具的集成方式、追踪能力和评估工作流。LangSmith 与 LangChain 原生集成，提供完整的执行树视图和提示调试功能；Langfuse 是开源且框架无关的，支持会话分组和事后评分；Arize 专注于生产级 ML 监控，使用 OpenInference 标准。文章帮助读者根据需求选择合适的工具。

来源Analytics Vidhya作者: Riya Bansal

在 AI 智能体的开发中，测试阶段运行良好的智能体一旦部署到生产环境，常常会出现各种难以排查的问题：某个工具调用陷入死循环、检索步骤返回垃圾信息、成本突然飙升，而开发者完全不知道原因。这便是智能体可观测性需要解决的核心问题。本文通过一个实际的 LangChain 智能体，对三种主流可观测工具——LangSmith、Langfuse 和 Arize 进行了详细的对比实践。

什么是智能体可观测性？

传统应用监控关注请求、错误和延迟，但这对于 AI 智能体远远不够。智能体可能按顺序调用多个工具，每一步的 LLM 都有独立的提示词、令牌用量、延迟和潜在故障点。一次失败的检索或工具调用就可能导致最终回答错误。智能体可观测性需要捕获完整的执行图：每一步、决策、LLM 输入输出、工具调用及其参数和结果、令牌用量、延迟以及评估分数。没有这种可见性，调试智能体行为就如同猜谜。

测试智能体的搭建

文章使用了一个简单的 LangChain 智能体，它包含两个工具：search_docs（搜索内部文档）和 get_order_status（查询订单状态）。智能体接收用户问题，检索相关上下文，并使用工具给出答案。基础代码实现了智能体的构建，并提供了三个测试问题。

LangSmith：原生 LangChain 追踪

LangSmith 由 LangChain 团队开发，与 LangChain 的集成最为简便。只需设置环境变量即可自动追踪，无需修改代码。在仪表板上，用户可以看到完整的智能体执行树，包括每个节点的输入、输出和延迟。LangSmith 还支持运行标签、元数据添加、按结果过滤、将运行保存为数据集以及运行评估。其提示调试功能尤为强大：用户可以直接在追踪记录中编辑提示词并重新运行，以调试 LLM 性能。不过，LangSmith 的免费层有限制，且如果未使用 LangChain 则需要额外集成工作。

Langfuse：开源且框架无关

Langfuse 是一个开源替代品，支持自托管或云服务。它可以通过回调查处理器与 LangChain、LlamaIndex、OpenAI API 等框架集成。与 LangSmith 相比，Langfuse 提供了更显式的控制：每次调用可以传递回调处理器，并指定用户 ID、会话 ID 和自定义元数据。Langfuse 的评估工作流允许在追踪完成后通过客户端添加分数，支持人工评审和聚合指标。会话分组功能使得多轮对话的追踪清晰可见。

Arize：生产级 ML 可观测性

Arize 最初是为传统机器学习模型监控而开发的，现已扩展至 LLM 和智能体。它采用 OpenInference 标准作为测量方案，适合大规模生产环境。虽然文章未完全展开，但 Arize 在追踪和监控方面提供了企业级功能。

如何选择？

总结而言，如果用户已使用 LangChain 且需要快速集成，LangSmith 是最佳选择；如果需要开源、框架无关且灵活的解决方案，Langfuse 更为合适；而如果面向大规模生产部署且需要全面 ML 监控，则应考虑 Arize。选择合适工具的关键在于理解自身对可观测性的具体需求：集成难度、可扩展性、成本以及评估工作流的灵活性。