2026-06-04 01:25 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

LangSmith、Langfuse 和 Arize 的智慧體可觀測性對比實踐

本文對比了三種常用的智慧體可觀測性工具：LangSmith、Langfuse 和 Arize。透過設定一個基於 LangChain 的測試智慧體，展示了各工具的整合方式、追蹤能力和評估工作流。LangSmith 與 LangChain 原生整合，提供完整的執行樹檢視和提示除錯功能；Langfuse 是開源且框架無關的，支援會話分組和事後評分；Arize 專注於生產級 ML 監控，使用 OpenInference 標準。文章幫助讀者根據需求選擇合適的工具。

來源Analytics Vidhya作者: Riya Bansal

文章情報

工程師進階

要點

智慧體可觀測性需要捕獲完整的執行圖，包括每一步、決策、LLM 輸入輸出、工具呼叫、令牌使用和延遲。
LangSmith 透過環境變數與 LangChain 無縫整合，提供深入的追蹤和提示除錯功能。
Langfuse 是開源且框架無關的，支援顯式回撥處理、會話分組和靈活的評分機制。
Arize 起源於傳統 ML 監控，現擴充套件至 LLM 和智慧體觀測，適合大規模生產部署。

為什麼重要

這條新聞值得關注，因為智慧體可觀測性需要捕獲完整的執行圖，包括每一步、決策、LLM 輸入輸出、工具呼叫、令牌使用和延遲。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

本面板由 AI 生成，經人工審核。

在 AI 智慧體的開發中，測試階段執行良好的智慧體一旦部署到生產環境，常常會出現各種難以排查的問題：某個工具呼叫陷入死迴圈、檢索步驟返回垃圾資訊、成本突然飆升，而開發者完全不知道原因。這便是智慧體可觀測性需要解決的核心問題。本文透過一個實際的 LangChain 智慧體，對三種主流可觀測工具——LangSmith、Langfuse 和 Arize 進行了詳細的對比實踐。

什麼是智慧體可觀測性？

傳統應用監控關注請求、錯誤和延遲，但這對於 AI 智慧體遠遠不夠。智慧體可能按順序呼叫多個工具，每一步的 LLM 都有獨立的提示詞、令牌用量、延遲和潛在故障點。一次失敗的檢索或工具呼叫就可能導致最終回答錯誤。智慧體可觀測性需要捕獲完整的執行圖：每一步、決策、LLM 輸入輸出、工具呼叫及其引數和結果、令牌用量、延遲以及評估分數。沒有這種可見性，除錯智慧體行為就如同猜謎。

測試智慧體的搭建

文章使用了一個簡單的 LangChain 智慧體，它包含兩個工具：search_docs（搜尋內部文件）和 get_order_status（查詢訂單狀態）。智慧體接收使用者問題，檢索相關上下文，並使用工具給出答案。基礎程式碼實現了智慧體的構建，並提供了三個測試問題。

LangSmith：原生 LangChain 追蹤

LangSmith 由 LangChain 團隊開發，與 LangChain 的整合最為簡便。只需設定環境變數即可自動追蹤，無需修改程式碼。在儀表板上，使用者可以看到完整的智慧體執行樹，包括每個節點的輸入、輸出和延遲。LangSmith 還支援執行標籤、後設資料新增、按結果過濾、將執行儲存為資料集以及執行評估。其提示除錯功能尤為強大：使用者可以直接在追蹤記錄中編輯提示詞並重新執行，以除錯 LLM 效能。不過，LangSmith 的免費層有限制，且如果未使用 LangChain 則需要額外整合工作。

Langfuse：開源且框架無關

Langfuse 是一個開源替代品，支援自託管或雲服務。它可以透過回撥查處理器與 LangChain、LlamaIndex、OpenAI API 等框架整合。與 LangSmith 相比，Langfuse 提供了更顯式的控制：每次呼叫可以傳遞迴調處理器，並指定使用者 ID、會話 ID 和自定義後設資料。Langfuse 的評估工作流允許在追蹤完成後透過客戶端新增分數，支援人工評審和聚合指標。會話分組功能使得多輪對話的追蹤清晰可見。

Arize：生產級 ML 可觀測性

Arize 最初是為傳統機器學習模型監控而開發的，現已擴充套件至 LLM 和智慧體。它採用 OpenInference 標準作為測量方案，適合大規模生產環境。雖然文章未完全展開，但 Arize 在追蹤和監控方面提供了企業級功能。

如何選擇？

總結而言，如果使用者已使用 LangChain 且需要快速整合，LangSmith 是最佳選擇；如果需要開源、框架無關且靈活的解決方案，Langfuse 更為合適；而如果面向大規模生產部署且需要全面 ML 監控，則應考慮 Arize。選擇合適工具的關鍵在於理解自身對可觀測性的具體需求：整合難度、可擴充套件性、成本以及評估工作流的靈活性。