將Every Eval Ever結果集成到Hugging Face模型頁面
Every Eval Ever (EEE) 與 Hugging Face Community Evals 實現互操作,允許用户交叉發佈和解讀評估結果,同時鏈接到開放模型、排行榜和統一的標準化元數據存儲。
Every Eval Ever(EEE)與Hugging Face Community Evals現在實現了互操作,這一整合使得評估結果的發佈和解讀變得更加便捷,同時能夠鏈接到開放模型、排行榜以及統一的標準化元數據存儲。
EEE於2026年2月作為EvalEval聯盟的項目啓動,這是首個跨機構協作,旨在改善人工智能評估結果報告方式的倡議,無論評估方是內部還是第三方。同期,Hugging Face推出了Community Evals,旨在去中心化基準分數在Hub上的報告方式。兩者結合,填補了用户、研究人員和政策制定者在信任、理解和選擇評估及模型方面的空白。
評估結果是衡量模型能力、進行模型比較以及推理安全與治理的關鍵,但它們目前分散且難以比較。這些結果存在於論文、排行榜、博客文章和評估日誌中,每種格式都不同。同一個模型在同一個基準上的得分往往因運行者和運行方式而異;例如,LLaMA 65B在MMLU上的報告得分既有63.7也有48.8。這些差異可能源於評估設置,而我們發現這些設置通常未被報告。
EEE為了解決報告方面的問題而生。它提供了一種統一的JSON模式來記錄評估結果,包括:誰運行的、哪個模型、如何訪問、生成設置、指標的實際含義以及可選的逐樣本輸出JSONL文件。該模式在研究人員和政策研究者的反饋下構建,可以接受來自任何來源的結果,因此評估日誌、排行榜抓取和論文數字都能以相同的形式呈現。GitHub倉庫包含了轉換器、示例和貢獻指南。自發布以來,Hugging Face上的數據存儲已增長至約22.9萬條評估結果,涵蓋超過2.2萬個模型和2200個基準,這些結果來自31種不同的報告格式。僅重新運行這些實驗的成本就可能高達數十萬美元,這充分説明了不讓數據分散的重要性——畢竟已經有人為此付出了代價。
現在,EEE與Community Evals的集成帶來了更好的整合和歸因。貢獻者可以將EEE結果發送到Hugging Face Community Evals。我們構建了一個轉換器,它將你的EEE記錄轉換為Hugging Face期望的小型YAML文件,這樣你就不必手動維護兩種格式的相同結果。這是針對所有報告或閲讀評估結果的人的新功能,而不僅僅是現有的EEE貢獻者。無論是報告自家模型的第一方評估者,還是評估他人模型的第三方評估者,都可以將結果提交給Community Evals和EEE,而任何瀏覽Hub的人都能看到可追溯至完整記錄的結果。當你通過所在組織的官方Hugging Face賬户提交數據時,你的結果會在EvalEval上顯示已驗證的勾選標記,向讀者表明這些數字直接來自源頭。
Hugging Face Community Evals與EvalEval如何配合工作
Hugging Face Community Evals有兩個方面。基準存在於數據集倉庫中,通過添加eval.yaml進行註冊。註冊後,該數據集頁面會收集並顯示所有針對該基準在Hub上報告的分數排行榜。官方基準列表會隨時間增長。模型的分數存儲在模型倉庫中的.eval_results/*.yaml文件中,它們會顯示在模型卡上,並反饋到相應的基準排行榜中。模型作者自己的結果以及任何人通過拉取請求提交的結果都會被聚合,每個分數都帶有徽章,標明是作者提交、社區提交還是獨立驗證。任何人都可以通過打開包含正確YAML文件的PR來向任何模型添加分數,而模型作者可以關閉PR或在自己的倉庫中隱藏結果。
EEE與Community Evals的配合方式如下:當你將結果同時發送給兩者時,會發生兩件事:首先,你的分數會出現在Hugging Face模型頁面上,並被拉入基準排行榜;其次,它會攜帶一個來源徽章,直接鏈接回完整的EEE記錄,其中包含生成配置、評估版本、可重複性説明以及任何實例級數據。
這兩個目標服務於同一個目標的不同部分。Hugging Face將你的結果放在人們查看模型的地方,並帶有來源鏈接。EEE保留了完整的結構化記錄,使結果可解釋,並在此基礎上提供Eval Cards。將數據發送到兩者,同一個評估結果既能可見又可解讀,這正是報告評估結果的意義所在。
工作原理
Hugging Face將評估分數存儲在模型倉庫中的.eval_results/下的YAML文件中。必需字段僅為基準數據集、任務和值。source塊是創建指向EEE反向鏈接的部分。轉換器根據你現有的記錄填充這些字段。它將source_data.hf_repo映射到dataset.id,evaluation_name映射到task_id,score_details.score映射到value,evaluation_timestamp映射到date,然後插入數據存儲對象URL作為指向每條EEE JSON的源鏈接。目前它支持四個官方基準:MMLU-Pro、GPQA、HLE和GSM8K。
轉換器不僅重塑字段。你指向一個EEE數據存儲集合,它會下載該集合及其引用的記錄,檢查對象哈希,並找到映射到支持基準的分數。在寫入任何活躍內容之前,它會審計已存在的內容:它會讀取模型主分支和開放PR中的每個.eval_results YAML文件,並根據數據集和任務進行比較,而不是根據文件名。如果分數已存在,則標記為already_present;如果存在不同分數,則標記為score_conflict;如果模型倉庫在Hub上無法解析,則標記為missing_hf_model。其餘標記為ready。
沒有你的簽署,任何內容都不會被推送。該工具會寫入本地YAML預覽和一份審查文件供你檢查,顯示準備就緒和需要注意的事項的報告,並且只有在你輸入OPEN PRS並輸入提交消息後才會打開PR。重新運行時,除非傳遞--force,否則會重用集合的緩存結果。
開始使用
首先將你的完整記錄提交到EEE數據存儲。然後使用community eval轉換器工具處理一個集合。預覽生成的預覽和報告,然後輸入OPEN PRS即可提交。完整的模式、CLI和轉換器文檔請訪問evalevalai.com/every_eval_ever/hf-community-evals。