2026-06-16站内改写2 分鐘閱讀更新: 2026-06-16

分享 LangSmith 基準測試

LangSmith 推出公開基準測試和評估資料集共享功能，幫助開發者比較不同 LLM 架構在相同任務上的表現。首發資料集為 LangChain 文件問答資料集，併發布了 langchain-benchmarks 包以支援實驗。文章分析了多種模型和架構的效能，並提供了除錯方法。

來源LangChain Blog

在將 LLM 應用投入生產時，測試和評估是開發者面臨的最大痛點。隨著新模型、檢索技術、代理型別和認知架構的不斷湧現，這一挑戰愈發嚴峻。LangSmith 在過去幾個月已成為 LLM 架構評估的首選平臺，支援測試比較檢視和資料集管理。如今，LangSmith 進一步推出評估資料集和結果的共享功能，讓社群驅動的基準測試成為現實。同時釋出的 langchain-benchmarks 包使開發者能夠輕鬆復現結果並試驗自己的架構。

測試共享功能允許任何 LangSmith 使用者釋出不同架構在相同任務上的所有資料和指標。每個評估結果不僅包含最終指標，還附帶了完整的執行追蹤，讓使用者能夠超越聚合統計，深入觀察每一步的執行細節。

首個釋出的基準測試是 LangChain 文件問答資料集。該資料集包含手工編寫的問題-答案對，旨在測試 RAG 系統在需要跨文件綜合回答或處理與文件知識衝突的問題時的能力。初始評估覆蓋了多種實現，包括不同語言模型（OpenAI、Anthropic、開源模型）和認知架構（對話檢索鏈、代理）。

在簡單 RAG 方法比較中，使用相同檢索器的不同模型表現各異。例如，GPT-4 的準確率得分最高（0.50），而 Zephyr-7b-beta 的準確率較低（0.31）。在代理架構中，OpenAI Assistant API 取得了最高效能（0.62），而基於 GPT-3.5 的函式呼叫代理得分 0.47。這些結果可透過連結檢視詳細追蹤。

透過手動檢查資料點，開發者能識別弱點。例如，當問題涉及“知識的缺失”時，GPT-3.5 可能產生幻覺，編造出不存在的文件連結；而 Mistral 模型則更謹慎，避免不準確回答。透過追蹤，發現檢索到的文件與問題不相關，從而指導最佳化提示或檢索策略。另一個例子中，Mistral 模型因文件順序而錯誤回答，GPT-3.5 則正確。透過調整文件順序即可改進。

除了準確率，延遲也是重要指標。開源模型如 Mistral 7B 在速度上有優勢，但準確率較低。總體而言，閉源 API 在開箱即用情況下表現更好，但適當的提示工程可縮小差距。LangSmith 的公共基準測試為社群提供了寶貴的參考，幫助開發者基於實際資料做出決策。