AI News HubLIVE
站内改写2 分钟阅读

LangSmith、Langfuse 和 Arize 的智能体可观测性对比实践

本文对比了三种常用的智能体可观测性工具:LangSmith、Langfuse 和 Arize。通过设置一个基于 LangChain 的测试智能体,展示了各工具的集成方式、追踪能力和评估工作流。LangSmith 与 LangChain 原生集成,提供完整的执行树视图和提示调试功能;Langfuse 是开源且框架无关的,支持会话分组和事后评分;Arize 专注于生产级 ML 监控,使用 OpenInference 标准。文章帮助读者根据需求选择合适的工具。

来源Analytics Vidhya作者: Riya Bansal

在 AI 智能体的开发中,测试阶段运行良好的智能体一旦部署到生产环境,常常会出现各种难以排查的问题:某个工具调用陷入死循环、检索步骤返回垃圾信息、成本突然飙升,而开发者完全不知道原因。这便是智能体可观测性需要解决的核心问题。本文通过一个实际的 LangChain 智能体,对三种主流可观测工具——LangSmith、Langfuse 和 Arize 进行了详细的对比实践。

什么是智能体可观测性?

传统应用监控关注请求、错误和延迟,但这对于 AI 智能体远远不够。智能体可能按顺序调用多个工具,每一步的 LLM 都有独立的提示词、令牌用量、延迟和潜在故障点。一次失败的检索或工具调用就可能导致最终回答错误。智能体可观测性需要捕获完整的执行图:每一步、决策、LLM 输入输出、工具调用及其参数和结果、令牌用量、延迟以及评估分数。没有这种可见性,调试智能体行为就如同猜谜。

测试智能体的搭建

文章使用了一个简单的 LangChain 智能体,它包含两个工具:search_docs(搜索内部文档)和 get_order_status(查询订单状态)。智能体接收用户问题,检索相关上下文,并使用工具给出答案。基础代码实现了智能体的构建,并提供了三个测试问题。

LangSmith:原生 LangChain 追踪

LangSmith 由 LangChain 团队开发,与 LangChain 的集成最为简便。只需设置环境变量即可自动追踪,无需修改代码。在仪表板上,用户可以看到完整的智能体执行树,包括每个节点的输入、输出和延迟。LangSmith 还支持运行标签、元数据添加、按结果过滤、将运行保存为数据集以及运行评估。其提示调试功能尤为强大:用户可以直接在追踪记录中编辑提示词并重新运行,以调试 LLM 性能。不过,LangSmith 的免费层有限制,且如果未使用 LangChain 则需要额外集成工作。

Langfuse:开源且框架无关

Langfuse 是一个开源替代品,支持自托管或云服务。它可以通过回调查处理器与 LangChain、LlamaIndex、OpenAI API 等框架集成。与 LangSmith 相比,Langfuse 提供了更显式的控制:每次调用可以传递回调处理器,并指定用户 ID、会话 ID 和自定义元数据。Langfuse 的评估工作流允许在追踪完成后通过客户端添加分数,支持人工评审和聚合指标。会话分组功能使得多轮对话的追踪清晰可见。

Arize:生产级 ML 可观测性

Arize 最初是为传统机器学习模型监控而开发的,现已扩展至 LLM 和智能体。它采用 OpenInference 标准作为测量方案,适合大规模生产环境。虽然文章未完全展开,但 Arize 在追踪和监控方面提供了企业级功能。

如何选择?

总结而言,如果用户已使用 LangChain 且需要快速集成,LangSmith 是最佳选择;如果需要开源、框架无关且灵活的解决方案,Langfuse 更为合适;而如果面向大规模生产部署且需要全面 ML 监控,则应考虑 Arize。选择合适工具的关键在于理解自身对可观测性的具体需求:集成难度、可扩展性、成本以及评估工作流的灵活性。