2026-06-16站内改写2 分鐘閱讀更新: 2026-06-16

分享 LangSmith 基準測試

LangSmith 推出公開基準測試和評估數據集共享功能，幫助開發者比較不同 LLM 架構在相同任務上的表現。首發數據集為 LangChain 文檔問答數據集，併發布了 langchain-benchmarks 包以支持實驗。文章分析了多種模型和架構的性能，並提供了調試方法。

來源LangChain Blog

在將 LLM 應用投入生產時，測試和評估是開發者面臨的最大痛點。隨着新模型、檢索技術、代理類型和認知架構的不斷湧現，這一挑戰愈發嚴峻。LangSmith 在過去幾個月已成為 LLM 架構評估的首選平台，支持測試比較視圖和數據集管理。如今，LangSmith 進一步推出評估數據集和結果的共享功能，讓社區驅動的基準測試成為現實。同時發佈的 langchain-benchmarks 包使開發者能夠輕鬆復現結果並試驗自己的架構。

測試共享功能允許任何 LangSmith 用户發佈不同架構在相同任務上的所有數據和指標。每個評估結果不僅包含最終指標，還附帶了完整的執行追蹤，讓用户能夠超越聚合統計，深入觀察每一步的執行細節。

首個發佈的基準測試是 LangChain 文檔問答數據集。該數據集包含手工編寫的問題-答案對，旨在測試 RAG 系統在需要跨文檔綜合回答或處理與文檔知識衝突的問題時的能力。初始評估覆蓋了多種實現，包括不同語言模型（OpenAI、Anthropic、開源模型）和認知架構（對話檢索鏈、代理）。

在簡單 RAG 方法比較中，使用相同檢索器的不同模型表現各異。例如，GPT-4 的準確率得分最高（0.50），而 Zephyr-7b-beta 的準確率較低（0.31）。在代理架構中，OpenAI Assistant API 取得了最高性能（0.62），而基於 GPT-3.5 的函數調用代理得分 0.47。這些結果可通過鏈接查看詳細追蹤。

通過手動檢查數據點，開發者能識別弱點。例如，當問題涉及“知識的缺失”時，GPT-3.5 可能產生幻覺，編造出不存在的文檔鏈接；而 Mistral 模型則更謹慎，避免不準確回答。通過追蹤，發現檢索到的文檔與問題不相關，從而指導優化提示或檢索策略。另一個例子中，Mistral 模型因文檔順序而錯誤回答，GPT-3.5 則正確。通過調整文檔順序即可改進。

除了準確率，延遲也是重要指標。開源模型如 Mistral 7B 在速度上有優勢，但準確率較低。總體而言，閉源 API 在開箱即用情況下表現更好，但適當的提示工程可縮小差距。LangSmith 的公共基準測試為社區提供了寶貴的參考，幫助開發者基於實際數據做出決策。