推出 Align Evals:簡化 LLM 應用評估
LangSmith 的新功能 Align Evals 幫助開發者校準評估器,使其更符合人類偏好,從而減少評估分數與人工判斷之間的差異。
在人工智能應用的開發中,評估是提升應用質量的關鍵技術。無論是處理單個提示還是複雜的智能體,評估都能為輸出評分,幫助理解變更的影響。然而,許多團隊遇到一個常見問題:評估分數與團隊預期的結果不一致。這種不匹配會導致比較結果充滿噪聲,並浪費時間去追蹤錯誤的信號。為了解決這一難題,LangSmith 推出了 Align Evals 功能,旨在幫助用户校準評估器,使其更準確地反映人類偏好。該功能受 Eugene Yan 關於構建 LLM-as-a-judge 評估器文章的啓發,現已向所有 LangSmith Cloud 用户開放,並計劃於本週晚些時候支持自託管部署。
Align Evals 的核心在於通過人機對比迭代優化評估提示。首先,用户需要為應用中的典型輸入(包括正確和錯誤的輸出)手動評分,形成“黃金標準”數據集。然後,創建 LLM 評估提示,並在類似 Playground 的界面中測試其與人工評分的一致性。系統會顯示對齊分數,並高亮顯示偏差較大的案例,便於用户針對性地調整提示。每次修改後,系統會保存基線分數,以便比較不同版本的效果。具體工作流程包括四個步驟:選擇評估標準、選取數據進行人工審查、為數據打上預期分數、創建評估提示並與人工評分對比。例如,如果 LLM 經常對某些回答給出過高評分,可以在提示中添加更清晰的負面標準。整個過程是迭代的,旨在提升評估的可靠性。
未來,LangSmith 計劃加入分析功能以追蹤評估器性能的演變,並實現自動提示優化。開發人員可以通過 LangSmith 文檔和視頻教程快速上手,並在 LangChain 社區論壇中提供反饋。Align Evals 的推出使得創建高質量的 LLM-as-a-judge 評估器變得更加容易,有望顯著提升 LLM 應用評估的準確性和效率。