測試運行對比功能
LangSmith 推出了測試運行對比功能,允許用户並排查看多個測試運行的結果,結合人工檢查和自動評估,更高效地優化 LLM 應用。
文章情報
要點
- 測試運行對比支持並排查看多個測試運行,便於比較。
- 用户可以使用 LLM 輔助評估或正則表達式獲得初步分數,再手動深入分析。
- 通過篩選器快速定位表現差異大的數據點,輔助應用改進。
為甚麼重要
這條新聞值得關注,因為測試運行對比支持並排查看多個測試運行,便於比較。
技術影響
可能影響模型選型、推理成本、產品能力和評測基準。
LangSmith 團隊今日宣佈推出測試運行對比功能,旨在幫助開發者更直觀地比較不同測試運行的效果,從而加速 LLM 應用的迭代與優化。
在 LLM 應用開發中,評估始終是一個公認的難題。定量評估提示詞、鏈或代理變化的影響非常困難。儘管 LangChain 團隊對 LLM 輔助評估持樂觀態度,但他們也承認完全信任自動評估並不容易。OpenAI 的 Jason Wei 曾指出,頂尖 AI 研究人員願意手動檢查大量數據,並構建基礎設施以快速完成這一過程。他認為,手動檢查數據雖然不引人注目,但能提供對問題的寶貴直覺。
基於這一洞察,LangSmith 在最初版本支持運行測試和 LLM 輔助評分的基礎上,發現了兩個常見的使用模式:用户仍然對直接信任 LLM 輔助評估猶豫不決,並且他們不僅希望單獨評分測試運行,還希望與之前的迭代進行比較。因此,測試運行對比功能應運而生。
具體操作流程如下:首先,在數據集中設置並運行測試。然後,在數據集內選擇兩個或多個測試運行,點擊“比較”按鈕,即可進入對比視圖。該視圖並排顯示每個數據點的輸入、參考輸出、實際輸出,以及評估指標、耗時和延遲。如需深入查看某個數據點,點擊該行會彈出側邊欄,顯示運行細節,並可通過上下箭頭(▲和▼)在不同運行間切換。
此外,對比視圖為每一列提供了類似 Excel 的篩選器。LangSmith 團隊推薦的使用方法是:篩選一個測試運行中正確的數據點,同時篩選另一個測試運行中錯誤的數據點,這樣可以快速定位兩個運行之間的顯著差異,便於發現變化原因。
構建 LLM 應用的關鍵在於理解模型在特定任務上的行為。設置評估數據集並輕鬆比較同一數據集上的運行結果,對於培養這種理解至關重要。LangSmith 的測試運行對比功能正是為了解決這一問題而設計的。目前 LangSmith 處於內測階段,用户可註冊候補名單。團隊將在未來幾周內逐步開放更多訪問權限,並繼續添加類似功能。