AI News HubLIVE
站内改写2 分鐘閱讀

分享 LangSmith 基準測試

LangSmith 推出公開基準測試和評估數據集共享功能,幫助開發者比較不同 LLM 架構在相同任務上的表現。首發數據集為 LangChain 文檔問答數據集,併發布了 langchain-benchmarks 包以支持實驗。文章分析了多種模型和架構的性能,並提供了調試方法。

在將 LLM 應用投入生產時,測試和評估是開發者面臨的最大痛點。隨着新模型、檢索技術、代理類型和認知架構的不斷湧現,這一挑戰愈發嚴峻。LangSmith 在過去幾個月已成為 LLM 架構評估的首選平台,支持測試比較視圖和數據集管理。如今,LangSmith 進一步推出評估數據集和結果的共享功能,讓社區驅動的基準測試成為現實。同時發佈的 langchain-benchmarks 包使開發者能夠輕鬆復現結果並試驗自己的架構。

測試共享功能允許任何 LangSmith 用户發佈不同架構在相同任務上的所有數據和指標。每個評估結果不僅包含最終指標,還附帶了完整的執行追蹤,讓用户能夠超越聚合統計,深入觀察每一步的執行細節。

首個發佈的基準測試是 LangChain 文檔問答數據集。該數據集包含手工編寫的問題-答案對,旨在測試 RAG 系統在需要跨文檔綜合回答或處理與文檔知識衝突的問題時的能力。初始評估覆蓋了多種實現,包括不同語言模型(OpenAI、Anthropic、開源模型)和認知架構(對話檢索鏈、代理)。

在簡單 RAG 方法比較中,使用相同檢索器的不同模型表現各異。例如,GPT-4 的準確率得分最高(0.50),而 Zephyr-7b-beta 的準確率較低(0.31)。在代理架構中,OpenAI Assistant API 取得了最高性能(0.62),而基於 GPT-3.5 的函數調用代理得分 0.47。這些結果可通過鏈接查看詳細追蹤。

通過手動檢查數據點,開發者能識別弱點。例如,當問題涉及“知識的缺失”時,GPT-3.5 可能產生幻覺,編造出不存在的文檔鏈接;而 Mistral 模型則更謹慎,避免不準確回答。通過追蹤,發現檢索到的文檔與問題不相關,從而指導優化提示或檢索策略。另一個例子中,Mistral 模型因文檔順序而錯誤回答,GPT-3.5 則正確。通過調整文檔順序即可改進。

除了準確率,延遲也是重要指標。開源模型如 Mistral 7B 在速度上有優勢,但準確率較低。總體而言,閉源 API 在開箱即用情況下表現更好,但適當的提示工程可縮小差距。LangSmith 的公共基準測試為社區提供了寶貴的參考,幫助開發者基於實際數據做出決策。