AI News HubLIVE
站内改写3 分钟阅读

将Every Eval Ever结果集成到Hugging Face模型页面

Every Eval Ever (EEE) 与 Hugging Face Community Evals 实现互操作,允许用户交叉发布和解读评估结果,同时链接到开放模型、排行榜和统一的标准化元数据存储。

Every Eval Ever(EEE)与Hugging Face Community Evals现在实现了互操作,这一整合使得评估结果的发布和解读变得更加便捷,同时能够链接到开放模型、排行榜以及统一的标准化元数据存储。

EEE于2026年2月作为EvalEval联盟的项目启动,这是首个跨机构协作,旨在改善人工智能评估结果报告方式的倡议,无论评估方是内部还是第三方。同期,Hugging Face推出了Community Evals,旨在去中心化基准分数在Hub上的报告方式。两者结合,填补了用户、研究人员和政策制定者在信任、理解和选择评估及模型方面的空白。

评估结果是衡量模型能力、进行模型比较以及推理安全与治理的关键,但它们目前分散且难以比较。这些结果存在于论文、排行榜、博客文章和评估日志中,每种格式都不同。同一个模型在同一个基准上的得分往往因运行者和运行方式而异;例如,LLaMA 65B在MMLU上的报告得分既有63.7也有48.8。这些差异可能源于评估设置,而我们发现这些设置通常未被报告。

EEE为了解决报告方面的问题而生。它提供了一种统一的JSON模式来记录评估结果,包括:谁运行的、哪个模型、如何访问、生成设置、指标的实际含义以及可选的逐样本输出JSONL文件。该模式在研究人员和政策研究者的反馈下构建,可以接受来自任何来源的结果,因此评估日志、排行榜抓取和论文数字都能以相同的形式呈现。GitHub仓库包含了转换器、示例和贡献指南。自发布以来,Hugging Face上的数据存储已增长至约22.9万条评估结果,涵盖超过2.2万个模型和2200个基准,这些结果来自31种不同的报告格式。仅重新运行这些实验的成本就可能高达数十万美元,这充分说明了不让数据分散的重要性——毕竟已经有人为此付出了代价。

现在,EEE与Community Evals的集成带来了更好的整合和归因。贡献者可以将EEE结果发送到Hugging Face Community Evals。我们构建了一个转换器,它将你的EEE记录转换为Hugging Face期望的小型YAML文件,这样你就不必手动维护两种格式的相同结果。这是针对所有报告或阅读评估结果的人的新功能,而不仅仅是现有的EEE贡献者。无论是报告自家模型的第一方评估者,还是评估他人模型的第三方评估者,都可以将结果提交给Community Evals和EEE,而任何浏览Hub的人都能看到可追溯至完整记录的结果。当你通过所在组织的官方Hugging Face账户提交数据时,你的结果会在EvalEval上显示已验证的勾选标记,向读者表明这些数字直接来自源头。

Hugging Face Community Evals与EvalEval如何配合工作

Hugging Face Community Evals有两个方面。基准存在于数据集仓库中,通过添加eval.yaml进行注册。注册后,该数据集页面会收集并显示所有针对该基准在Hub上报告的分数排行榜。官方基准列表会随时间增长。模型的分数存储在模型仓库中的.eval_results/*.yaml文件中,它们会显示在模型卡上,并反馈到相应的基准排行榜中。模型作者自己的结果以及任何人通过拉取请求提交的结果都会被聚合,每个分数都带有徽章,标明是作者提交、社区提交还是独立验证。任何人都可以通过打开包含正确YAML文件的PR来向任何模型添加分数,而模型作者可以关闭PR或在自己的仓库中隐藏结果。

EEE与Community Evals的配合方式如下:当你将结果同时发送给两者时,会发生两件事:首先,你的分数会出现在Hugging Face模型页面上,并被拉入基准排行榜;其次,它会携带一个来源徽章,直接链接回完整的EEE记录,其中包含生成配置、评估版本、可重复性说明以及任何实例级数据。

这两个目标服务于同一个目标的不同部分。Hugging Face将你的结果放在人们查看模型的地方,并带有来源链接。EEE保留了完整的结构化记录,使结果可解释,并在此基础上提供Eval Cards。将数据发送到两者,同一个评估结果既能可见又可解读,这正是报告评估结果的意义所在。

工作原理

Hugging Face将评估分数存储在模型仓库中的.eval_results/下的YAML文件中。必需字段仅为基准数据集、任务和值。source块是创建指向EEE反向链接的部分。转换器根据你现有的记录填充这些字段。它将source_data.hf_repo映射到dataset.id,evaluation_name映射到task_id,score_details.score映射到value,evaluation_timestamp映射到date,然后插入数据存储对象URL作为指向每条EEE JSON的源链接。目前它支持四个官方基准:MMLU-Pro、GPQA、HLE和GSM8K。

转换器不仅重塑字段。你指向一个EEE数据存储集合,它会下载该集合及其引用的记录,检查对象哈希,并找到映射到支持基准的分数。在写入任何活跃内容之前,它会审计已存在的内容:它会读取模型主分支和开放PR中的每个.eval_results YAML文件,并根据数据集和任务进行比较,而不是根据文件名。如果分数已存在,则标记为already_present;如果存在不同分数,则标记为score_conflict;如果模型仓库在Hub上无法解析,则标记为missing_hf_model。其余标记为ready。

没有你的签署,任何内容都不会被推送。该工具会写入本地YAML预览和一份审查文件供你检查,显示准备就绪和需要注意的事项的报告,并且只有在你输入OPEN PRS并输入提交消息后才会打开PR。重新运行时,除非传递--force,否则会重用集合的缓存结果。

开始使用

首先将你的完整记录提交到EEE数据存储。然后使用community eval转换器工具处理一个集合。预览生成的预览和报告,然后输入OPEN PRS即可提交。完整的模式、CLI和转换器文档请访问evalevalai.com/every_eval_ever/hf-community-evals。