AI News HubLIVE
站内改写2 分鐘閱讀

使用OpenEvals快速開始評估LLM

OpenEvals和AgentEvals提供了預構建的評估器,支持LLM-as-judge、結構化數據和代理軌跡評估。這些開源包幫助開發者快速建立評估流程,確保LLM應用可靠性。

評估(Evaluation)對於將可靠的LLM驅動應用或代理投入生產至關重要,但從頭開始構建評估往往令人無從下手。LangChain新推出的openevals和agentevals包提供了一套評估器和一個通用框架,可幫助開發者輕鬆起步。

什麼是評估? 評估提供了系統化的方法,根據應用的關鍵標準判斷LLM輸出質量。評估包含兩個組成部分:評估數據和評估指標。評估數據的質量和多樣性直接影響評估反映實際使用情況的程度。在創建評估之前,應花時間針對具體用例整理數據集——只需少量高質量數據點即可開始。評估指標也通常因應用目標而異,但常見評估類型存在共性。openevals和agentevals正是基於這些共性,提供了預構建的解決方案,展示評估趨勢和最佳實踐。

常見評估類型與最佳實踐 評估類型眾多,openevals首先聚焦於最常用且實用的技術,從兩個方向入手:一、使廣泛適用的評估器易於定製:LLM-as-judge評估器應用最廣,openevals使其預構建示例易於針對具體用例定製;二、構建特定用例評估器:從文檔結構化內容提取、工具調用和代理軌跡等常見場景開始,後續計劃擴展到RAG應用或多智能體架構等場景。

LLM-as-judge評估器 此類評估器使用LLM對應用輸出進行評分,適用於自然語言輸出評估。應用場景包括:聊天機器人對話質量、摘要或問答系統的幻覺檢測、寫作質量和連貫性。LLM-as-judge評估可無參考進行,無需真實答案。openevals提供預構建提示模板、少樣本示例集成、簡化評分模式設置,並生成推理註釋以提高透明度。

結構化數據評估器 許多LLM應用涉及從文檔提取結構化輸出或為工具調用生成結構化輸出。openevals支持精確匹配或LLM-as-judge驗證結構化輸出,並可選聚合評分以提供整體性能視圖。

代理評估:軌跡評估 構建代理時,不僅關注最終輸出,還需理解代理達成結果的行動序列。AgentEvals提供代理軌跡評估,檢查工具選擇順序或使用LLM-as-judge評估軌跡;對於LangGraph應用,還可使用圖軌跡評估確保代理調用正確節點。

使用LangSmith跟蹤結果 建議將評估結果記錄到LangSmith,以便隨時間跟蹤和團隊共享。LangSmith提供追蹤、評估和實驗工具,幫助構建生產級LLM應用。Elastic、Klarna和Podium等公司已使用LangSmith評估其生成式AI應用。

未來計劃 這僅是規範不同應用類型評估實踐的開始。未來幾周將新增更多常見用例的評估器,以及更多代理測試評估器。歡迎在GitHub倉庫(openevals和agentevals)提交反饋或貢獻代碼。