2026-04-30站内改写

測試執行對比功能

LangSmith 推出了測試執行對比功能，允許使用者並排檢視多個測試執行的結果，結合人工檢查和自動評估，更高效地最佳化 LLM 應用。

文章情報

工程師入門

要點

測試執行對比支援並排檢視多個測試執行，便於比較。
使用者可以使用 LLM 輔助評估或正規表示式獲得初步分數，再手動深入分析。
透過篩選器快速定位表現差異大的資料點，輔助應用改進。

為什麼重要

這條新聞值得關注，因為測試執行對比支援並排檢視多個測試執行，便於比較。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

LangSmith 團隊今日宣佈推出測試執行對比功能，旨在幫助開發者更直觀地比較不同測試執行的效果，從而加速 LLM 應用的迭代與最佳化。

在 LLM 應用開發中，評估始終是一個公認的難題。定量評估提示詞、鏈或代理變化的影響非常困難。儘管 LangChain 團隊對 LLM 輔助評估持樂觀態度，但他們也承認完全信任自動評估並不容易。OpenAI 的 Jason Wei 曾指出，頂尖 AI 研究人員願意手動檢查大量資料，並構建基礎設施以快速完成這一過程。他認為，手動檢查資料雖然不引人注目，但能提供對問題的寶貴直覺。

基於這一洞察，LangSmith 在最初版本支援執行測試和 LLM 輔助評分的基礎上，發現了兩個常見的使用模式：使用者仍然對直接信任 LLM 輔助評估猶豫不決，並且他們不僅希望單獨評分測試執行，還希望與之前的迭代進行比較。因此，測試執行對比功能應運而生。

具體操作流程如下：首先，在資料集中設定並執行測試。然後，在資料集內選擇兩個或多個測試執行，點選“比較”按鈕，即可進入對比檢視。該檢視並排顯示每個資料點的輸入、參考輸出、實際輸出，以及評估指標、耗時和延遲。如需深入檢視某個資料點，點選該行會彈出側邊欄，顯示執行細節，並可透過上下箭頭（▲和▼）在不同執行間切換。

此外，對比檢視為每一列提供了類似 Excel 的篩選器。LangSmith 團隊推薦的使用方法是：篩選一個測試執行中正確的資料點，同時篩選另一個測試執行中錯誤的資料點，這樣可以快速定位兩個執行之間的顯著差異，便於發現變化原因。

構建 LLM 應用的關鍵在於理解模型在特定任務上的行為。設定評估資料集並輕鬆比較同一資料集上的執行結果，對於培養這種理解至關重要。LangSmith 的測試執行對比功能正是為了解決這一問題而設計的。目前 LangSmith 處於內測階段，使用者可註冊候補名單。團隊將在未來幾周內逐步開放更多訪問許可權，並繼續新增類似功能。