2026-06-15站内改写1 分鐘閱讀更新: 2026-06-15

推出 Align Evals：簡化 LLM 應用評估

LangSmith 的新功能 Align Evals 幫助開發者校準評估器，使其更符合人類偏好，從而減少評估分數與人工判斷之間的差異。

在人工智能應用的開發中，評估是提升應用質量的關鍵技術。無論是處理單個提示還是複雜的智能體，評估都能為輸出評分，幫助理解變更的影響。然而，許多團隊遇到一個常見問題：評估分數與團隊預期的結果不一致。這種不匹配會導致比較結果充滿噪聲，並浪費時間去追蹤錯誤的信號。為了解決這一難題，LangSmith 推出了 Align Evals 功能，旨在幫助用户校準評估器，使其更準確地反映人類偏好。該功能受 Eugene Yan 關於構建 LLM-as-a-judge 評估器文章的啓發，現已向所有 LangSmith Cloud 用户開放，並計劃於本週晚些時候支持自託管部署。

Align Evals 的核心在於通過人機對比迭代優化評估提示。首先，用户需要為應用中的典型輸入（包括正確和錯誤的輸出）手動評分，形成“黃金標準”數據集。然後，創建 LLM 評估提示，並在類似 Playground 的界面中測試其與人工評分的一致性。系統會顯示對齊分數，並高亮顯示偏差較大的案例，便於用户針對性地調整提示。每次修改後，系統會保存基線分數，以便比較不同版本的效果。具體工作流程包括四個步驟：選擇評估標準、選取數據進行人工審查、為數據打上預期分數、創建評估提示並與人工評分對比。例如，如果 LLM 經常對某些回答給出過高評分，可以在提示中添加更清晰的負面標準。整個過程是迭代的，旨在提升評估的可靠性。

未來，LangSmith 計劃加入分析功能以追蹤評估器性能的演變，並實現自動提示優化。開發人員可以通過 LangSmith 文檔和視頻教程快速上手，並在 LangChain 社區論壇中提供反饋。Align Evals 的推出使得創建高質量的 LLM-as-a-judge 評估器變得更加容易，有望顯著提升 LLM 應用評估的準確性和效率。