ADeLe:预测和解释AI跨任务性能的新方法
ADeLe由微软研究院与普林斯顿大学和瓦伦西亚理工大学合作开发,通过对18种核心能力(如推理和领域知识)对AI模型和任务进行评分,能够以约88%的准确率预测模型在未见任务上的表现。它揭示了模型的优势和弱点,提供了超越传统基准的可解释AI评估。
ADeLe:用能力剖析代替单一基准,预测并解释AI的跨任务表现
人工智能基准测试通常报告大型语言模型(LLM)在特定任务上的表现,但很少揭示驱动这些表现的底层能力。它们无法解释失败原因,也不能可靠地预测新任务上的结果。为了应对这一挑战,微软研究院联合普林斯顿大学和瓦伦西亚理工大学,提出了ADeLe(AI Evaluation with Demand Levels)方法,该方法通过一套广泛的能力(如推理和领域知识)来描述模型和任务,从而能够预测新任务上的表现,并将其与模型的具体优势和弱点联系起来。
在《自然》杂志发表的一篇论文中,研究团队描述了ADeLe如何超越聚合的基准评分。它不是将评估视为一系列孤立的测试,而是使用相同的能力评分集来表示基准和LLM。这些评分随后可用于估算模型在未见任务上的表现。该研究得到了微软加速基础模型研究(AFMR)资助项目的支持。
ADeLe在18种核心能力(如注意力、推理、领域知识)上对任务进行评分,并根据任务对每种能力的需求程度分配0到5的评分。例如,一个基本的算术问题可能在定量推理方面得分较低,但奥林匹克级别的证明题则会高得多。在众多任务上评估模型会产生一个能力剖面——一个结构化视图,显示模型在哪些方面表现良好,在哪些方面出现问题。将此剖面与新任务的需求进行比较,可以识别导致失败的具体差距。
使用ADeLe,研究团队评估了一系列AI基准和模型行为,以了解当前评估捕获了什么以及遗漏了什么。结果表明,许多广泛使用的基准提供了不完整且有时具有误导性的模型能力图景,而更结构化的方法可以澄清这些差距,并帮助预测模型在新环境中的行为。ADeLe显示,许多基准并未隔离它们旨在衡量的能力,或者只覆盖了有限范围的难度水平。例如,一个旨在评估逻辑推理的测试也可能严重依赖专业知识或元认知。其他测试则聚焦于狭窄的难度范围,省略了更简单和更复杂的情况。通过对任务所需能力进行评分,ADeLe使这些不匹配变得可见,并提供了一种诊断现有基准和设计更好基准的方法。
将该框架应用于15个LLM,研究团队使用18种能力的0-5评分构建了能力剖面。对于每种能力,团队测量了性能如何随任务难度变化,并使用模型有50%成功可能性的难度水平作为其能力分数。分析显示,模型在各项能力上的优势和弱点各不相同。较新的模型通常表现优于旧模型,但在所有能力上并不一致。知识密集型任务的表现强烈依赖于模型大小和训练,而面向推理的模型在执行逻辑、学习、抽象和社会推理的任务上显示出明显提升。这些模式通常需要多次独立分析,并且当任务需求未得到仔细控制时,仍可能产生矛盾结论。ADeLe在单一框架内揭示了这些模式。
ADeLe还支持预测。通过将模型的能力剖面与任务需求进行比较,它可以预测模型是否会成功,即使是面对不熟悉的任务。在实验中,这种方法对GPT-4o和LLaMA-3.1-405B等模型达到了约88%的准确率,优于传统方法。这使得在部署前解释和预测潜在失败成为可能,提高了AI模型评估的可靠性和可预测性。
关于AI系统能否真正推理是领域内的核心争论。一些研究报告了强大的推理性能,而另一些则显示它们在规模化时崩溃。这些结果反映了任务难度的差异。ADeLe显示,标记为“推理”的基准在需求上有所不同,从基本问题解决到需要高级逻辑、抽象和领域知识的任务。同一模型在低需求测试上得分可超过90%,而在高需求测试上低于15%,这反映了任务需求的差异而非能力变化。像OpenAI的o1和GPT-5这样的推理导向模型显示出可衡量的提升——不仅在逻辑和数学方面,还包括用户意图解释。然而,随着任务需求的增加,性能会下降。AI系统可以推理,但仅限于一定程度,而ADeLe确定了每个模型的这个临界点。
ADeLe旨在随着AI的进步而发展,并且可以扩展到多模态和具身AI系统。它还有潜力作为AI研究、政策制定和安全审计的标准化框架。更广泛地说,它推进了一种更系统的AI评估方法——一种解释系统行为并预测性能的方法。这项工作建立在早期努力的基础上,包括微软将心理测量学应用于AI评估的研究以及最近关于社会AI的工作,强调了AI评估的重要性。
随着通用AI系统持续超越现有评估方法,像ADeLe这样的方法为实际使用中更严格和透明的评估提供了路径。研究团队正在通过与更广泛的社区合作来扩展这项工作。额外的实验、基准注释和资源可在GitHub上获取。