分享 LangSmith 基準測試
LangSmith 推出公開基準測試和評估資料集共享功能,幫助開發者比較不同 LLM 架構在相同任務上的表現。首發資料集為 LangChain 文件問答資料集,併發布了 langchain-benchmarks 包以支援實驗。文章分析了多種模型和架構的效能,並提供了除錯方法。
在將 LLM 應用投入生產時,測試和評估是開發者面臨的最大痛點。隨著新模型、檢索技術、代理型別和認知架構的不斷湧現,這一挑戰愈發嚴峻。LangSmith 在過去幾個月已成為 LLM 架構評估的首選平臺,支援測試比較檢視和資料集管理。如今,LangSmith 進一步推出評估資料集和結果的共享功能,讓社群驅動的基準測試成為現實。同時釋出的 langchain-benchmarks 包使開發者能夠輕鬆復現結果並試驗自己的架構。
測試共享功能允許任何 LangSmith 使用者釋出不同架構在相同任務上的所有資料和指標。每個評估結果不僅包含最終指標,還附帶了完整的執行追蹤,讓使用者能夠超越聚合統計,深入觀察每一步的執行細節。
首個釋出的基準測試是 LangChain 文件問答資料集。該資料集包含手工編寫的問題-答案對,旨在測試 RAG 系統在需要跨文件綜合回答或處理與文件知識衝突的問題時的能力。初始評估覆蓋了多種實現,包括不同語言模型(OpenAI、Anthropic、開源模型)和認知架構(對話檢索鏈、代理)。
在簡單 RAG 方法比較中,使用相同檢索器的不同模型表現各異。例如,GPT-4 的準確率得分最高(0.50),而 Zephyr-7b-beta 的準確率較低(0.31)。在代理架構中,OpenAI Assistant API 取得了最高效能(0.62),而基於 GPT-3.5 的函式呼叫代理得分 0.47。這些結果可透過連結檢視詳細追蹤。
透過手動檢查資料點,開發者能識別弱點。例如,當問題涉及“知識的缺失”時,GPT-3.5 可能產生幻覺,編造出不存在的文件連結;而 Mistral 模型則更謹慎,避免不準確回答。透過追蹤,發現檢索到的文件與問題不相關,從而指導最佳化提示或檢索策略。另一個例子中,Mistral 模型因文件順序而錯誤回答,GPT-3.5 則正確。透過調整文件順序即可改進。
除了準確率,延遲也是重要指標。開源模型如 Mistral 7B 在速度上有優勢,但準確率較低。總體而言,閉源 API 在開箱即用情況下表現更好,但適當的提示工程可縮小差距。LangSmith 的公共基準測試為社群提供了寶貴的參考,幫助開發者基於實際資料做出決策。