2026-06-15站内改写2 分鐘閱讀更新: 2026-06-15

使用OpenEvals快速開始評估LLM

OpenEvals和AgentEvals提供了預構建的評估器，支持LLM-as-judge、結構化數據和代理軌跡評估。這些開源包幫助開發者快速建立評估流程，確保LLM應用可靠性。

評估（Evaluation）對於將可靠的LLM驅動應用或代理投入生產至關重要，但從頭開始構建評估往往令人無從下手。LangChain新推出的openevals和agentevals包提供了一套評估器和一個通用框架，可幫助開發者輕鬆起步。

什麼是評估？評估提供了系統化的方法，根據應用的關鍵標準判斷LLM輸出質量。評估包含兩個組成部分：評估數據和評估指標。評估數據的質量和多樣性直接影響評估反映實際使用情況的程度。在創建評估之前，應花時間針對具體用例整理數據集——只需少量高質量數據點即可開始。評估指標也通常因應用目標而異，但常見評估類型存在共性。openevals和agentevals正是基於這些共性，提供了預構建的解決方案，展示評估趨勢和最佳實踐。

常見評估類型與最佳實踐評估類型眾多，openevals首先聚焦於最常用且實用的技術，從兩個方向入手：一、使廣泛適用的評估器易於定製：LLM-as-judge評估器應用最廣，openevals使其預構建示例易於針對具體用例定製；二、構建特定用例評估器：從文檔結構化內容提取、工具調用和代理軌跡等常見場景開始，後續計劃擴展到RAG應用或多智能體架構等場景。

LLM-as-judge評估器此類評估器使用LLM對應用輸出進行評分，適用於自然語言輸出評估。應用場景包括：聊天機器人對話質量、摘要或問答系統的幻覺檢測、寫作質量和連貫性。LLM-as-judge評估可無參考進行，無需真實答案。openevals提供預構建提示模板、少樣本示例集成、簡化評分模式設置，並生成推理註釋以提高透明度。

結構化數據評估器許多LLM應用涉及從文檔提取結構化輸出或為工具調用生成結構化輸出。openevals支持精確匹配或LLM-as-judge驗證結構化輸出，並可選聚合評分以提供整體性能視圖。

代理評估：軌跡評估構建代理時，不僅關注最終輸出，還需理解代理達成結果的行動序列。AgentEvals提供代理軌跡評估，檢查工具選擇順序或使用LLM-as-judge評估軌跡；對於LangGraph應用，還可使用圖軌跡評估確保代理調用正確節點。

使用LangSmith跟蹤結果建議將評估結果記錄到LangSmith，以便隨時間跟蹤和團隊共享。LangSmith提供追蹤、評估和實驗工具，幫助構建生產級LLM應用。Elastic、Klarna和Podium等公司已使用LangSmith評估其生成式AI應用。

未來計劃這僅是規範不同應用類型評估實踐的開始。未來幾周將新增更多常見用例的評估器，以及更多代理測試評估器。歡迎在GitHub倉庫（openevals和agentevals）提交反饋或貢獻代碼。