AI News HubLIVE
站内改写1 分鐘閱讀

推出 Align Evals:簡化 LLM 應用評估

LangSmith 的新功能 Align Evals 幫助開發者校準評估器,使其更符合人類偏好,從而減少評估分數與人工判斷之間的差異。

在人工智慧應用的開發中,評估是提升應用質量的關鍵技術。無論是處理單個提示還是複雜的智慧體,評估都能為輸出評分,幫助理解變更的影響。然而,許多團隊遇到一個常見問題:評估分數與團隊預期的結果不一致。這種不匹配會導致比較結果充滿噪聲,並浪費時間去追蹤錯誤的訊號。為了解決這一難題,LangSmith 推出了 Align Evals 功能,旨在幫助使用者校準評估器,使其更準確地反映人類偏好。該功能受 Eugene Yan 關於構建 LLM-as-a-judge 評估器文章的啟發,現已向所有 LangSmith Cloud 使用者開放,並計劃於本週晚些時候支援自託管部署。

Align Evals 的核心在於透過人機對比迭代最佳化評估提示。首先,使用者需要為應用中的典型輸入(包括正確和錯誤的輸出)手動評分,形成“黃金標準”資料集。然後,建立 LLM 評估提示,並在類似 Playground 的介面中測試其與人工評分的一致性。系統會顯示對齊分數,並高亮顯示偏差較大的案例,便於使用者針對性地調整提示。每次修改後,系統會儲存基線分數,以便比較不同版本的效果。具體工作流程包括四個步驟:選擇評估標準、選取資料進行人工審查、為資料打上預期分數、建立評估提示並與人工評分對比。例如,如果 LLM 經常對某些回答給出過高評分,可以在提示中新增更清晰的負面標準。整個過程是迭代的,旨在提升評估的可靠性。

未來,LangSmith 計劃加入分析功能以追蹤評估器效能的演變,並實現自動提示最佳化。開發人員可以透過 LangSmith 文件和影片教程快速上手,並在 LangChain 社群論壇中提供反饋。Align Evals 的推出使得建立高質量的 LLM-as-a-judge 評估器變得更加容易,有望顯著提升 LLM 應用評估的準確性和效率。