AI News HubLIVE
站内改写

使用LangSmith進行迴歸測試

LangSmith 的迴歸測試功能幫助 AI 工程師通過比較實驗、跟蹤性能並深入分析運行間的變化,自信地評估和迭代 LLM 應用。與傳統的軟件測試不同,AI 測試可能無法獲得滿分,因此隨時間追蹤結果並比較單個數據點至關重要。LangSmith 提供了比較視圖、顯示選項、基線運行中自動高亮變化的數據點、過濾以及展開行詳細查看等功能,使快速迭代和探索數據變得簡單。

文章情報

工程師入門

要點

  • LangSmith 改進了 LLM 應用的迴歸測試流程。
  • AI 測試不同於傳統軟件測試,需要跟蹤性能變化。
  • 比較視圖可同時查看多個實驗,並具有靈活的顯示選項。
  • 通過基線運行自動高亮指標增減的數據點,支持過濾和詳細查看。

為甚麼重要

這條新聞值得關注,因為LangSmith 改進了 LLM 應用的迴歸測試流程。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

LangSmith 最近對其迴歸測試體驗進行了顯著改進,旨在幫助 AI 工程師快速、可靠地評估和迭代 LLM 應用。高效的測試和實驗過程通常包括設置輸入數據集(以及可選的預期輸出)和定義評估標準,從而評估不同的提示、模型和認知架構。

與傳統的軟件測試不同,AI 應用在評估數據集上可能無法獲得滿分。這一差異帶來了兩個關鍵需求:首先,需要隨時間追蹤測試結果,以確保性能持續提升;其次,需要能夠比較兩次或多次運行之間的單個數據點,以瞭解模型在哪些數據點上表現變好或變壞。OpenAI 研究員 Jason Wei 曾指出,優秀的 AI 研究者願意手動檢查大量數據,並構建基礎設施以快速完成這一過程。LangSmith 團隊正是基於這一理念,對迴歸測試流程進行了重大改進。

新的迴歸測試功能圍繞三個核心方面構建。第一,比較視圖允許用户選擇多個實驗(至少兩個,通常三到四個),在一個界面中同時查看所有結果。第二,顯示選項提供高度控制,用户可以根據需要選擇查看高級概覽、詳細文本或每次調用的延遲等信息。第三,也是最關鍵的,系統自動設置基線運行,並基於評估指標高亮顯示與基線相比增加或減少的數據點,用綠色或紅色標記相應的單元格。

此外,用户可以通過列頂部的切換開關快速篩選出僅發生變化的數據點,從而聚焦於最有趣的樣本。一旦找到感興趣的某一行,可以展開該行以獲得更全面和具體的視圖,查看該數據點在不同運行下的表現。這些功能使得跨多次評估運行的數據探索變得輕鬆,大大加快了迭代速度。LangSmith 團隊表示,這些特性體現了 AI 測試與傳統軟件測試的本質區別,並計劃在未來推出更多簡化比較的功能。