2026-04-30站内改写

使用LangSmith進行迴歸測試

LangSmith 的迴歸測試功能幫助 AI 工程師透過比較實驗、跟蹤效能並深入分析執行間的變化，自信地評估和迭代 LLM 應用。與傳統的軟體測試不同，AI 測試可能無法獲得滿分，因此隨時間追蹤結果並比較單個資料點至關重要。LangSmith 提供了比較檢視、顯示選項、基線執行中自動高亮變化的資料點、過濾以及展開行詳細檢視等功能，使快速迭代和探索資料變得簡單。

文章情報

工程師入門

要點

LangSmith 改進了 LLM 應用的迴歸測試流程。
AI 測試不同於傳統軟體測試，需要跟蹤效能變化。
比較檢視可同時檢視多個實驗，並具有靈活的顯示選項。
透過基線執行自動高亮指標增減的資料點，支援過濾和詳細檢視。

為什麼重要

這條新聞值得關注，因為LangSmith 改進了 LLM 應用的迴歸測試流程。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

LangSmith 最近對其迴歸測試體驗進行了顯著改進，旨在幫助 AI 工程師快速、可靠地評估和迭代 LLM 應用。高效的測試和實驗過程通常包括設定輸入資料集（以及可選的預期輸出）和定義評估標準，從而評估不同的提示、模型和認知架構。

與傳統的軟體測試不同，AI 應用在評估資料集上可能無法獲得滿分。這一差異帶來了兩個關鍵需求：首先，需要隨時間追蹤測試結果，以確保效能持續提升；其次，需要能夠比較兩次或多次執行之間的單個資料點，以瞭解模型在哪些資料點上表現變好或變壞。OpenAI 研究員 Jason Wei 曾指出，優秀的 AI 研究者願意手動檢查大量資料，並構建基礎設施以快速完成這一過程。LangSmith 團隊正是基於這一理念，對迴歸測試流程進行了重大改進。

新的迴歸測試功能圍繞三個核心方面構建。第一，比較檢視允許使用者選擇多個實驗（至少兩個，通常三到四個），在一個介面中同時檢視所有結果。第二，顯示選項提供高度控制，使用者可以根據需要選擇檢視高階概覽、詳細文本或每次呼叫的延遲等資訊。第三，也是最關鍵的，系統自動設定基線執行，並基於評估指標高亮顯示與基線相比增加或減少的資料點，用綠色或紅色標記相應的單元格。

此外，使用者可以透過列頂部的切換開關快速篩選出僅發生變化的資料點，從而聚焦於最有趣的樣本。一旦找到感興趣的某一行，可以展開該行以獲得更全面和具體的檢視，檢視該資料點在不同執行下的表現。這些功能使得跨多次評估執行的資料探索變得輕鬆，大大加快了迭代速度。LangSmith 團隊表示，這些特性體現了 AI 測試與傳統軟體測試的本質區別，並計劃在未來推出更多簡化比較的功能。