測試執行對比功能
LangSmith 推出了測試執行對比功能,允許使用者並排檢視多個測試執行的結果,結合人工檢查和自動評估,更高效地最佳化 LLM 應用。
文章情報
要點
- 測試執行對比支援並排檢視多個測試執行,便於比較。
- 使用者可以使用 LLM 輔助評估或正規表示式獲得初步分數,再手動深入分析。
- 透過篩選器快速定位表現差異大的資料點,輔助應用改進。
為什麼重要
這條新聞值得關注,因為測試執行對比支援並排檢視多個測試執行,便於比較。
技術影響
可能影響模型選型、推理成本、產品能力和評測基準。
LangSmith 團隊今日宣佈推出測試執行對比功能,旨在幫助開發者更直觀地比較不同測試執行的效果,從而加速 LLM 應用的迭代與最佳化。
在 LLM 應用開發中,評估始終是一個公認的難題。定量評估提示詞、鏈或代理變化的影響非常困難。儘管 LangChain 團隊對 LLM 輔助評估持樂觀態度,但他們也承認完全信任自動評估並不容易。OpenAI 的 Jason Wei 曾指出,頂尖 AI 研究人員願意手動檢查大量資料,並構建基礎設施以快速完成這一過程。他認為,手動檢查資料雖然不引人注目,但能提供對問題的寶貴直覺。
基於這一洞察,LangSmith 在最初版本支援執行測試和 LLM 輔助評分的基礎上,發現了兩個常見的使用模式:使用者仍然對直接信任 LLM 輔助評估猶豫不決,並且他們不僅希望單獨評分測試執行,還希望與之前的迭代進行比較。因此,測試執行對比功能應運而生。
具體操作流程如下:首先,在資料集中設定並執行測試。然後,在資料集內選擇兩個或多個測試執行,點選“比較”按鈕,即可進入對比檢視。該檢視並排顯示每個資料點的輸入、參考輸出、實際輸出,以及評估指標、耗時和延遲。如需深入檢視某個資料點,點選該行會彈出側邊欄,顯示執行細節,並可透過上下箭頭(▲和▼)在不同執行間切換。
此外,對比檢視為每一列提供了類似 Excel 的篩選器。LangSmith 團隊推薦的使用方法是:篩選一個測試執行中正確的資料點,同時篩選另一個測試執行中錯誤的資料點,這樣可以快速定位兩個執行之間的顯著差異,便於發現變化原因。
構建 LLM 應用的關鍵在於理解模型在特定任務上的行為。設定評估資料集並輕鬆比較同一資料集上的執行結果,對於培養這種理解至關重要。LangSmith 的測試執行對比功能正是為了解決這一問題而設計的。目前 LangSmith 處於內測階段,使用者可註冊候補名單。團隊將在未來幾周內逐步開放更多訪問許可權,並繼續新增類似功能。