2026-06-15站内改写3 分鐘閱讀更新: 2026-06-15

使用LangSmith進行成對評估

瞭解什麼是成對評估，為什麼在LLM應用開發中可能需要它，並通過LangChain的LangSmith示例瞭解如何使用它。

評估模型輸出是LLM應用開發中最關鍵的挑戰之一。然而，對於許多任務（如聊天或寫作），人類偏好難以通過一組規則來編碼。相反，對多個候選LLM答案進行成對評估，可以更有效地教會LLM人類偏好。

成對評估的起源

成對評估在測試和基準測試LLM模型性能的討論中開始扮演重要角色。例如，基於人類反饋的強化學習（RLHF）在LLM對齊中採用了成對評估的概念。人類訓練者會看到針對同一輸入的一對LLM回覆，並選擇哪個更符合某些標準（如有用性、信息量或安全性）。

最流行的LLM基準之一Chatbot Arena也使用了這一想法：它針對給定的用户提示展示兩個匿名的LLM生成結果，讓用户選擇更好的一個。雖然Chatbot Arena依賴人類反饋進行成對評估，但也可以使用LLM作為評判者來預測人類偏好並自動化這一過程。

儘管成對評估在公共基準測試和LLM對齊中很流行，但許多用户可能不知道如何利用自定義成對評估來改進他們的LLM應用。考慮到這一限制，我們在LangSmith中新增了成對評估功能。

LangSmith中的成對評估器

LangSmith的成對評估允許用户：(1) 使用任意期望的標準定義自定義成對LLM作為評判的評估器；(2) 使用該評估器比較兩個LLM生成結果。與選擇要比較的運行不同，當您點擊“數據集與測試”選項卡時，會看到一個新的子標題“成對實驗”。

這與比較視圖有何不同？

您可能會問：“這與比較視圖有何不同？”

如果您錯過了，幾周前我們發佈了改進的比較視圖用於迴歸測試。這允許您比較兩個運行並識別迴歸。成對評估在目標上類似，但實現方式明顯不同。

在以前的比較視圖中，您會單獨評估每個運行，然後比較分數。例如，您會給每個運行打1-10分（獨立評分），然後查找一個運行得分高於另一個運行的情況。

成對評估同時查看結果。這允許您定義一個明確比較兩個結果的評估器。然後您會得到該對的分數。它不是單獨對每個運行評分。

何時使用成對評估？

為了説明這一功能，本視頻展示了一個與內容生成相關的常見用例。在此示例中，我們希望LLM生成吸引人的推文來總結學術論文。我們構建了一個包含10篇不同論文的數據集，並由4個不同LLM生成總結。

由於沒有單一的“真實”論文摘要，我們使用了一個標準評估器，根據5個標準（例如，使用表情符號、吸引人的標題等）對總結推文從1（最差）到5（最佳）進行評分。

我們將這個summary_engagement_score捕獲到數據集中，如下所示。

然而，這立即凸顯了一個問題：4個LLM中的3個在summary_engagement_score上都獲得了滿分，彼此之間沒有差異。孤立地看，很難定義一個標準評估器來區分不同的LLM。而成對評估提供了另一種解決這一挑戰的方法。

使用自定義成對評估

如視頻所示，我們在LangSmith SDK中使用自定義成對評估器，並在LangSmith UI中可視化成對評估的結果。為了將其應用於上述問題，我們首先定義一個成對評估提示，編碼我們關心的標準（例如，基於標題、要點等，哪條推文總結更吸引人）。然後，我們只需在已運行的數據集上運行自定義評估器evaluate_pairwise。

from langsmith.evaluation import evaluate_comparative evaluate_comparative( ["summary-cmd-r-f692a55c", "summary-opus-21590361"], evaluators=[evaluate_pairwise], )

在UI中，我們將在數據集的“成對實驗”選項卡中看到所有成對評估的結果。重要的是，我們看到成對評估顯示了對某些LLM的明顯偏好——這與幾乎沒有區分度的單獨標準評估形成對比。

UI允許我們深入每個成對實驗，顯示根據我們的標準偏好哪個LLM生成結果（在列頂部使用顏色和拇指圖標）。通過點擊每個答案下的ranked_preference分數，我們可以進一步鑽取到每個評估軌跡，其中提供了排名的解釋。

結論

許多LLM用例，如文本生成或聊天，沒有單一或具體的“正確”答案用於評估。在這些情況下，使用人類或LLM選擇偏好響應的成對評估是一種強大的方法。

在這篇博文中，我們展示瞭如何在評估推文總結生成這一模糊任務上進行測試，並揭示了單獨評估標準的缺陷。我們的自定義成對評估器使我們能夠直接比較生成結果，突出了模型之間的明顯偏好。

要深入瞭解，請查看我們的視頻和文檔。您可以立即試用LangSmith進行穩健的實驗和評估，支持提示版本管理、調試和人工註釋——從而在構建LLM應用時獲得生產可觀測性。

看看你的代理真正在做什麼

LangSmith，我們的代理工程平台，幫助開發者調試每個代理決策、評估變化並一鍵部署。

試用LangSmith

獲取演示