AI News HubLIVE
站内改写

使用LangSmith進行迴歸測試

LangSmith 的迴歸測試功能幫助 AI 工程師透過比較實驗、跟蹤效能並深入分析執行間的變化,自信地評估和迭代 LLM 應用。與傳統的軟體測試不同,AI 測試可能無法獲得滿分,因此隨時間追蹤結果並比較單個資料點至關重要。LangSmith 提供了比較檢視、顯示選項、基線執行中自動高亮變化的資料點、過濾以及展開行詳細檢視等功能,使快速迭代和探索資料變得簡單。

文章情報

工程師入門

要點

  • LangSmith 改進了 LLM 應用的迴歸測試流程。
  • AI 測試不同於傳統軟體測試,需要跟蹤效能變化。
  • 比較檢視可同時檢視多個實驗,並具有靈活的顯示選項。
  • 透過基線執行自動高亮指標增減的資料點,支援過濾和詳細檢視。

為什麼重要

這條新聞值得關注,因為LangSmith 改進了 LLM 應用的迴歸測試流程。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

LangSmith 最近對其迴歸測試體驗進行了顯著改進,旨在幫助 AI 工程師快速、可靠地評估和迭代 LLM 應用。高效的測試和實驗過程通常包括設定輸入資料集(以及可選的預期輸出)和定義評估標準,從而評估不同的提示、模型和認知架構。

與傳統的軟體測試不同,AI 應用在評估資料集上可能無法獲得滿分。這一差異帶來了兩個關鍵需求:首先,需要隨時間追蹤測試結果,以確保效能持續提升;其次,需要能夠比較兩次或多次執行之間的單個資料點,以瞭解模型在哪些資料點上表現變好或變壞。OpenAI 研究員 Jason Wei 曾指出,優秀的 AI 研究者願意手動檢查大量資料,並構建基礎設施以快速完成這一過程。LangSmith 團隊正是基於這一理念,對迴歸測試流程進行了重大改進。

新的迴歸測試功能圍繞三個核心方面構建。第一,比較檢視允許使用者選擇多個實驗(至少兩個,通常三到四個),在一個介面中同時檢視所有結果。第二,顯示選項提供高度控制,使用者可以根據需要選擇檢視高階概覽、詳細文本或每次呼叫的延遲等資訊。第三,也是最關鍵的,系統自動設定基線執行,並基於評估指標高亮顯示與基線相比增加或減少的資料點,用綠色或紅色標記相應的單元格。

此外,使用者可以透過列頂部的切換開關快速篩選出僅發生變化的資料點,從而聚焦於最有趣的樣本。一旦找到感興趣的某一行,可以展開該行以獲得更全面和具體的檢視,檢視該資料點在不同執行下的表現。這些功能使得跨多次評估執行的資料探索變得輕鬆,大大加快了迭代速度。LangSmith 團隊表示,這些特性體現了 AI 測試與傳統軟體測試的本質區別,並計劃在未來推出更多簡化比較的功能。