2026-06-04 01:25 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

LangSmith、Langfuse 和 Arize 的智能體可觀測性對比實踐

本文對比了三種常用的智能體可觀測性工具：LangSmith、Langfuse 和 Arize。通過設置一個基於 LangChain 的測試智能體，展示了各工具的集成方式、追蹤能力和評估工作流。LangSmith 與 LangChain 原生集成，提供完整的執行樹視圖和提示調試功能；Langfuse 是開源且框架無關的，支持會話分組和事後評分；Arize 專注於生產級 ML 監控，使用 OpenInference 標準。文章幫助讀者根據需求選擇合適的工具。

來源Analytics Vidhya作者: Riya Bansal

在 AI 智能體的開發中，測試階段運行良好的智能體一旦部署到生產環境，常常會出現各種難以排查的問題：某個工具調用陷入死循環、檢索步驟返回垃圾信息、成本突然飆升，而開發者完全不知道原因。這便是智能體可觀測性需要解決的核心問題。本文通過一個實際的 LangChain 智能體，對三種主流可觀測工具——LangSmith、Langfuse 和 Arize 進行了詳細的對比實踐。

什麼是智能體可觀測性？

傳統應用監控關注請求、錯誤和延遲，但這對於 AI 智能體遠遠不夠。智能體可能按順序調用多個工具，每一步的 LLM 都有獨立的提示詞、令牌用量、延遲和潛在故障點。一次失敗的檢索或工具調用就可能導致最終回答錯誤。智能體可觀測性需要捕獲完整的執行圖：每一步、決策、LLM 輸入輸出、工具調用及其參數和結果、令牌用量、延遲以及評估分數。沒有這種可見性，調試智能體行為就如同猜謎。

測試智能體的搭建

文章使用了一個簡單的 LangChain 智能體，它包含兩個工具：search_docs（搜索內部文檔）和 get_order_status（查詢訂單狀態）。智能體接收用户問題，檢索相關上下文，並使用工具給出答案。基礎代碼實現了智能體的構建，並提供了三個測試問題。

LangSmith：原生 LangChain 追蹤

LangSmith 由 LangChain 團隊開發，與 LangChain 的集成最為簡便。只需設置環境變量即可自動追蹤，無需修改代碼。在儀表板上，用户可以看到完整的智能體執行樹，包括每個節點的輸入、輸出和延遲。LangSmith 還支持運行標籤、元數據添加、按結果過濾、將運行保存為數據集以及運行評估。其提示調試功能尤為強大：用户可以直接在追蹤記錄中編輯提示詞並重新運行，以調試 LLM 性能。不過，LangSmith 的免費層有限制，且如果未使用 LangChain 則需要額外集成工作。

Langfuse：開源且框架無關

Langfuse 是一個開源替代品，支持自託管或雲服務。它可以通過回調查處理器與 LangChain、LlamaIndex、OpenAI API 等框架集成。與 LangSmith 相比，Langfuse 提供了更顯式的控制：每次調用可以傳遞迴調處理器，並指定用户 ID、會話 ID 和自定義元數據。Langfuse 的評估工作流允許在追蹤完成後通過客户端添加分數，支持人工評審和聚合指標。會話分組功能使得多輪對話的追蹤清晰可見。

Arize：生產級 ML 可觀測性

Arize 最初是為傳統機器學習模型監控而開發的，現已擴展至 LLM 和智能體。它採用 OpenInference 標準作為測量方案，適合大規模生產環境。雖然文章未完全展開，但 Arize 在追蹤和監控方面提供了企業級功能。

如何選擇？

總結而言，如果用户已使用 LangChain 且需要快速集成，LangSmith 是最佳選擇；如果需要開源、框架無關且靈活的解決方案，Langfuse 更為合適；而如果面向大規模生產部署且需要全面 ML 監控，則應考慮 Arize。選擇合適工具的關鍵在於理解自身對可觀測性的具體需求：集成難度、可擴展性、成本以及評估工作流的靈活性。