2026-04-30站内改写

測試運行對比功能

LangSmith 推出了測試運行對比功能，允許用户並排查看多個測試運行的結果，結合人工檢查和自動評估，更高效地優化 LLM 應用。

文章情報

工程師入門

要點

測試運行對比支持並排查看多個測試運行，便於比較。
用户可以使用 LLM 輔助評估或正則表達式獲得初步分數，再手動深入分析。
通過篩選器快速定位表現差異大的數據點，輔助應用改進。

為甚麼重要

這條新聞值得關注，因為測試運行對比支持並排查看多個測試運行，便於比較。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

LangSmith 團隊今日宣佈推出測試運行對比功能，旨在幫助開發者更直觀地比較不同測試運行的效果，從而加速 LLM 應用的迭代與優化。

在 LLM 應用開發中，評估始終是一個公認的難題。定量評估提示詞、鏈或代理變化的影響非常困難。儘管 LangChain 團隊對 LLM 輔助評估持樂觀態度，但他們也承認完全信任自動評估並不容易。OpenAI 的 Jason Wei 曾指出，頂尖 AI 研究人員願意手動檢查大量數據，並構建基礎設施以快速完成這一過程。他認為，手動檢查數據雖然不引人注目，但能提供對問題的寶貴直覺。

基於這一洞察，LangSmith 在最初版本支持運行測試和 LLM 輔助評分的基礎上，發現了兩個常見的使用模式：用户仍然對直接信任 LLM 輔助評估猶豫不決，並且他們不僅希望單獨評分測試運行，還希望與之前的迭代進行比較。因此，測試運行對比功能應運而生。

具體操作流程如下：首先，在數據集中設置並運行測試。然後，在數據集內選擇兩個或多個測試運行，點擊“比較”按鈕，即可進入對比視圖。該視圖並排顯示每個數據點的輸入、參考輸出、實際輸出，以及評估指標、耗時和延遲。如需深入查看某個數據點，點擊該行會彈出側邊欄，顯示運行細節，並可通過上下箭頭（▲和▼）在不同運行間切換。

此外，對比視圖為每一列提供了類似 Excel 的篩選器。LangSmith 團隊推薦的使用方法是：篩選一個測試運行中正確的數據點，同時篩選另一個測試運行中錯誤的數據點，這樣可以快速定位兩個運行之間的顯著差異，便於發現變化原因。

構建 LLM 應用的關鍵在於理解模型在特定任務上的行為。設置評估數據集並輕鬆比較同一數據集上的運行結果，對於培養這種理解至關重要。LangSmith 的測試運行對比功能正是為了解決這一問題而設計的。目前 LangSmith 處於內測階段，用户可註冊候補名單。團隊將在未來幾周內逐步開放更多訪問權限，並繼續添加類似功能。