2026-04-30站内改写

使用LangSmith進行迴歸測試

LangSmith 的迴歸測試功能幫助 AI 工程師通過比較實驗、跟蹤性能並深入分析運行間的變化，自信地評估和迭代 LLM 應用。與傳統的軟件測試不同，AI 測試可能無法獲得滿分，因此隨時間追蹤結果並比較單個數據點至關重要。LangSmith 提供了比較視圖、顯示選項、基線運行中自動高亮變化的數據點、過濾以及展開行詳細查看等功能，使快速迭代和探索數據變得簡單。

文章情報

工程師入門

要點

LangSmith 改進了 LLM 應用的迴歸測試流程。
AI 測試不同於傳統軟件測試，需要跟蹤性能變化。
比較視圖可同時查看多個實驗，並具有靈活的顯示選項。
通過基線運行自動高亮指標增減的數據點，支持過濾和詳細查看。

為甚麼重要

這條新聞值得關注，因為LangSmith 改進了 LLM 應用的迴歸測試流程。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

LangSmith 最近對其迴歸測試體驗進行了顯著改進，旨在幫助 AI 工程師快速、可靠地評估和迭代 LLM 應用。高效的測試和實驗過程通常包括設置輸入數據集（以及可選的預期輸出）和定義評估標準，從而評估不同的提示、模型和認知架構。

與傳統的軟件測試不同，AI 應用在評估數據集上可能無法獲得滿分。這一差異帶來了兩個關鍵需求：首先，需要隨時間追蹤測試結果，以確保性能持續提升；其次，需要能夠比較兩次或多次運行之間的單個數據點，以瞭解模型在哪些數據點上表現變好或變壞。OpenAI 研究員 Jason Wei 曾指出，優秀的 AI 研究者願意手動檢查大量數據，並構建基礎設施以快速完成這一過程。LangSmith 團隊正是基於這一理念，對迴歸測試流程進行了重大改進。

新的迴歸測試功能圍繞三個核心方面構建。第一，比較視圖允許用户選擇多個實驗（至少兩個，通常三到四個），在一個界面中同時查看所有結果。第二，顯示選項提供高度控制，用户可以根據需要選擇查看高級概覽、詳細文本或每次調用的延遲等信息。第三，也是最關鍵的，系統自動設置基線運行，並基於評估指標高亮顯示與基線相比增加或減少的數據點，用綠色或紅色標記相應的單元格。

此外，用户可以通過列頂部的切換開關快速篩選出僅發生變化的數據點，從而聚焦於最有趣的樣本。一旦找到感興趣的某一行，可以展開該行以獲得更全面和具體的視圖，查看該數據點在不同運行下的表現。這些功能使得跨多次評估運行的數據探索變得輕鬆，大大加快了迭代速度。LangSmith 團隊表示，這些特性體現了 AI 測試與傳統軟件測試的本質區別，並計劃在未來推出更多簡化比較的功能。