2026-05-11 16:00 UTC+8站内改写3 分钟阅读更新: 2026-06-27 08:25 UTC+8

为什么Artificial Analysis使用Ai2的IFBench指令遵循评估

Artificial Analysis采用Ai2开放的IFBench评估，因为它能捕捉许多基准测试忽略的指令遵循能力，在复杂多指令任务上尤其有效。该基准测试由实际用户对话驱动，且尚未饱和，是衡量模型真实性能的重要工具。

一个有用的人工智能模型不仅要给出合理的答案，还要准确遵循指令。这听起来简单，实则不然。用户可能要求三句话的摘要、以随意语气重写、或者答案必须包含某个词并避免另一个词——往往同时提出多项要求。模型可能理解主题，却仍然会出错。

我们的IFBench基准测试被NeurIPS 2025收录，用于测试语言模型如何精确遵循自然语言指令。去年，独立AI基准测试组织Artificial Analysis将IFBench纳入其智能指数，该指数综合多项评估得出模型的整体能力评分。

“我们发现，模型遵循用户指令的能力是开发者非常关心的，因此我们想明确评估这一点，”Artificial Analysis的技术人员Declan Jackson表示，“IFBench正是为填补这一空白而设计的，即使对前沿模型也颇具挑战。”

衡量对提示的依从性

IFBench不仅仅测试基本的指令遵循——它迫使模型在单个回复中遵守多条规则。有些规则很简单，比如最低字数或必须包含的关键词；有些则更棘手：句子长度必须匹配、连续单词的首字母不能相同、或者关键词必须出现在确切位置。

“这与其他许多基准测试不同，后者的指令遵循能力仅通过输出模板或要求的答案结构间接体现，”Jackson说。

每条约束看似随意，但合起来反映了常见场景：用户经常一次性要求模型完成多项任务，遗漏任何一项都可能毁掉答案。为了使IFBench贴近实际应用，其提示来自真实用户对话——而非研究人员凭空编写。

“IFBench以更接近真实使用的方式衡量指令遵循，”Jackson说，“提示使用随意的用户语言，涵盖广泛的语气和长度，而非遵循固定模板，并聚焦于常见任务，如事实问答、内容审核与摘要、以及创意支持。IFBench更广的覆盖范围使其成为指令遵循能力的更强整体指标。”

IFBench揭示其他基准遗漏的方面

AI基准测试通常寿命短暂。一旦模型开始接近满分，这些评估就无法再区分系统差异。据Jackson称，Artificial Analysis智能指数中的大多数评估在约六个月内就饱和了。

但IFBench尚未饱和。

“虽然IFBench分数随时间提升，但这种进步在模型间并不均匀，新的前沿模型在它上面仍然表现不佳，”Jackson说。

这有两个原因。

首先，复杂指令遵循与大多数实验室积极训练的能力之间重叠不多，Jackson说。编程和工具使用获得大量后训练投入，因为这方面的提升通常能泛化到其他任务和基准。指令遵循更为狭窄，很少因这些领域进展而作为副产品得到改善。

其次，IFBench衡量的广度之大。其广泛的约束和提示集意味着进展相对较慢，而实验室可以通过有针对性的后训练方案逐步攻克更专一的领域或能力评估。

这体现在数字上。Jackson说，IFBench分数按模型系列严格聚类，排名顺序与Artificial Analysis更广泛的智能指数并不一致。

xAI仍在IFBench上领先，Grok 4.20（0309，推理）以82.9%位居榜首，Grok 4.3紧随其后为81.3%。最近的谷歌模型也表现良好：Gemini 3 Flash Preview（推理）达到78.0%，而Gemini 3.1 Flash-Lite Preview和Gemini 3.1 Pro Preview分别为77.2%和77.1%。OpenAI的GPT-5.5（xhigh）和GPT-5.4（xhigh）分别为75.9%和73.9%。领先的Claude模型在IFBench上得分较低，Claude Opus 4.7、Claude Sonnet 4.6和Claude 4.5 Haiku在54.3%至58.6%之间——尽管Claude Opus 4.7在智能指数中排名靠前，得分为57，仅次于GPT-5.5（xhigh）的60分，并与Gemini 3.1 Pro Preview和GPT-5.4（xhigh）并列57分。

真正开放的评估方法

IFBench对Artificial Analysis有用有两个原因：它衡量的内容，以及我们公开发布它的事实。

开放性使Jackson的团队能够忠实地实施评估，并在广泛模型上运行，从而提供用户依赖的排行榜。它还使基准测试本身更容易理解，因为任何人都可以看到衡量了什么以及为什么。

对于Artificial Analysis，IFBench测试了几乎每次AI交互都会出现的问题：模型能否跟踪用户的请求，尤其是当请求包含许多要求时。它现已成为Artificial Analysis评估的常规部分，也是Ai2开放基准为领域带来价值的有力例证。

“除了评估，Ai2在开源方面也是重要领导者，”Jackson说，“他们的工作不仅通过开放研究推动行业进步，还为用户提供了在数据和方法的透明度下访问研究工件的机会。”

订阅每月获取Ai2最新新闻。