2026-06-15站内改写1 分鐘閱讀更新: 2026-06-15

推出 Align Evals：簡化 LLM 應用評估

LangSmith 的新功能 Align Evals 幫助開發者校準評估器，使其更符合人類偏好，從而減少評估分數與人工判斷之間的差異。

在人工智慧應用的開發中，評估是提升應用質量的關鍵技術。無論是處理單個提示還是複雜的智慧體，評估都能為輸出評分，幫助理解變更的影響。然而，許多團隊遇到一個常見問題：評估分數與團隊預期的結果不一致。這種不匹配會導致比較結果充滿噪聲，並浪費時間去追蹤錯誤的訊號。為了解決這一難題，LangSmith 推出了 Align Evals 功能，旨在幫助使用者校準評估器，使其更準確地反映人類偏好。該功能受 Eugene Yan 關於構建 LLM-as-a-judge 評估器文章的啟發，現已向所有 LangSmith Cloud 使用者開放，並計劃於本週晚些時候支援自託管部署。

Align Evals 的核心在於透過人機對比迭代最佳化評估提示。首先，使用者需要為應用中的典型輸入（包括正確和錯誤的輸出）手動評分，形成“黃金標準”資料集。然後，建立 LLM 評估提示，並在類似 Playground 的介面中測試其與人工評分的一致性。系統會顯示對齊分數，並高亮顯示偏差較大的案例，便於使用者針對性地調整提示。每次修改後，系統會儲存基線分數，以便比較不同版本的效果。具體工作流程包括四個步驟：選擇評估標準、選取資料進行人工審查、為資料打上預期分數、建立評估提示並與人工評分對比。例如，如果 LLM 經常對某些回答給出過高評分，可以在提示中新增更清晰的負面標準。整個過程是迭代的，旨在提升評估的可靠性。

未來，LangSmith 計劃加入分析功能以追蹤評估器效能的演變，並實現自動提示最佳化。開發人員可以透過 LangSmith 文件和影片教程快速上手，並在 LangChain 社群論壇中提供反饋。Align Evals 的推出使得建立高質量的 LLM-as-a-judge 評估器變得更加容易，有望顯著提升 LLM 應用評估的準確性和效率。