使用LangSmith進行成對評估
瞭解什麼是成對評估,為什麼在LLM應用開發中可能需要它,並通過LangChain的LangSmith示例瞭解如何使用它。
評估模型輸出是LLM應用開發中最關鍵的挑戰之一。然而,對於許多任務(如聊天或寫作),人類偏好難以通過一組規則來編碼。相反,對多個候選LLM答案進行成對評估,可以更有效地教會LLM人類偏好。
成對評估的起源
成對評估在測試和基準測試LLM模型性能的討論中開始扮演重要角色。例如,基於人類反饋的強化學習(RLHF)在LLM對齊中採用了成對評估的概念。人類訓練者會看到針對同一輸入的一對LLM回覆,並選擇哪個更符合某些標準(如有用性、信息量或安全性)。
最流行的LLM基準之一Chatbot Arena也使用了這一想法:它針對給定的用户提示展示兩個匿名的LLM生成結果,讓用户選擇更好的一個。雖然Chatbot Arena依賴人類反饋進行成對評估,但也可以使用LLM作為評判者來預測人類偏好並自動化這一過程。
儘管成對評估在公共基準測試和LLM對齊中很流行,但許多用户可能不知道如何利用自定義成對評估來改進他們的LLM應用。考慮到這一限制,我們在LangSmith中新增了成對評估功能。
LangSmith中的成對評估器
LangSmith的成對評估允許用户:(1) 使用任意期望的標準定義自定義成對LLM作為評判的評估器;(2) 使用該評估器比較兩個LLM生成結果。與選擇要比較的運行不同,當您點擊“數據集與測試”選項卡時,會看到一個新的子標題“成對實驗”。
這與比較視圖有何不同?
您可能會問:“這與比較視圖有何不同?”
如果您錯過了,幾周前我們發佈了改進的比較視圖用於迴歸測試。這允許您比較兩個運行並識別迴歸。成對評估在目標上類似,但實現方式明顯不同。
在以前的比較視圖中,您會單獨評估每個運行,然後比較分數。例如,您會給每個運行打1-10分(獨立評分),然後查找一個運行得分高於另一個運行的情況。
成對評估同時查看結果。這允許您定義一個明確比較兩個結果的評估器。然後您會得到該對的分數。它不是單獨對每個運行評分。
何時使用成對評估?
為了説明這一功能,本視頻展示了一個與內容生成相關的常見用例。在此示例中,我們希望LLM生成吸引人的推文來總結學術論文。我們構建了一個包含10篇不同論文的數據集,並由4個不同LLM生成總結。
由於沒有單一的“真實”論文摘要,我們使用了一個標準評估器,根據5個標準(例如,使用表情符號、吸引人的標題等)對總結推文從1(最差)到5(最佳)進行評分。
我們將這個summary_engagement_score捕獲到數據集中,如下所示。
然而,這立即凸顯了一個問題:4個LLM中的3個在summary_engagement_score上都獲得了滿分,彼此之間沒有差異。孤立地看,很難定義一個標準評估器來區分不同的LLM。而成對評估提供了另一種解決這一挑戰的方法。
使用自定義成對評估
如視頻所示,我們在LangSmith SDK中使用自定義成對評估器,並在LangSmith UI中可視化成對評估的結果。為了將其應用於上述問題,我們首先定義一個成對評估提示,編碼我們關心的標準(例如,基於標題、要點等,哪條推文總結更吸引人)。然後,我們只需在已運行的數據集上運行自定義評估器evaluate_pairwise。
from langsmith.evaluation import evaluate_comparative evaluate_comparative( ["summary-cmd-r-f692a55c", "summary-opus-21590361"], evaluators=[evaluate_pairwise], )
在UI中,我們將在數據集的“成對實驗”選項卡中看到所有成對評估的結果。重要的是,我們看到成對評估顯示了對某些LLM的明顯偏好——這與幾乎沒有區分度的單獨標準評估形成對比。
UI允許我們深入每個成對實驗,顯示根據我們的標準偏好哪個LLM生成結果(在列頂部使用顏色和拇指圖標)。通過點擊每個答案下的ranked_preference分數,我們可以進一步鑽取到每個評估軌跡,其中提供了排名的解釋。
結論
許多LLM用例,如文本生成或聊天,沒有單一或具體的“正確”答案用於評估。在這些情況下,使用人類或LLM選擇偏好響應的成對評估是一種強大的方法。
在這篇博文中,我們展示瞭如何在評估推文總結生成這一模糊任務上進行測試,並揭示了單獨評估標準的缺陷。我們的自定義成對評估器使我們能夠直接比較生成結果,突出了模型之間的明顯偏好。
要深入瞭解,請查看我們的視頻和文檔。您可以立即試用LangSmith進行穩健的實驗和評估,支持提示版本管理、調試和人工註釋——從而在構建LLM應用時獲得生產可觀測性。
看看你的代理真正在做什麼
LangSmith,我們的代理工程平台,幫助開發者調試每個代理決策、評估變化並一鍵部署。
試用LangSmith
獲取演示