人类最后的考试是个分心物
本文深入探讨了“人类最后的考试”(HLE)这一基准测试,阐述了其创建原因、专家们的不同观点,并总结出主流看法:HLE虽有用,但命名有营销之嫌,且未必能催生通用人工智能。
引言
“人类最后的考试”(Humanity's Last Exam, HLE)是一个旨在衡量现代人工智能系统推理和深度知识能力的基准测试。其定义性特征在于:它将评估标准推向了极致。可以将其视为几十年前诞生的图灵测试在当今的进化版本。
本文旨在温和地探讨这一基准,概述其创建原因,汇集该领域专家群体的多元观点,并总结最广为接受的结论。
为何构建HLE及其内容?
随着AI系统的发展,传统测试方法变得过时,因为它们开始毫不费力地获得满分。为此,AI安全中心与Scale AI合作,借助世界顶级专家创建了名为HLE的新基准。该基准于2026年1月发表在《自然》杂志上,这是迄今为止最负盛名的科学期刊。HLE经过精心设计,避免了以往评估框架中重复出现的模式。
那么,HLE究竟是什么呢?它是一项面向最先进AI系统(如语言模型)的考试,包含2500多个专家级问题,涵盖一百多个学术学科,包括但不限于物理、数学、生物、人文学科等。重要的是,这些问题无法通过记忆回答,也不局限于简单的信息检索或多项选择。相反,它们要求复杂的演绎推理和深刻的理解。
以下是两个示例问题:
[图片:两个HLE示例问题。图片来源:AI安全中心]
让我们看看迄今为止最先进模型取得的结果:即使是最前沿的模型,如GPT、Gemini或Claude,总体准确率也勉强超过45-50%。这些数字本身就说明了考试的难度之大。此外,他们常常由于对自己回答错误的问题表现得过于自信而导致失败。
专家对HLE的主流看法是什么?
诚实的答案是:几乎没有共识。技术、开发者和学术界的意见分歧很大,但有一种微妙的、占主导地位的倾向,即承认HLE具有一些实际效用。不过,其中存在关键的细微差别。
总体而言,熟悉HLE的专家和广大公众并不完全认为这是一项无意义的举措,但他们呼吁对其夸张的、似乎面向营销的命名方式提出批评。
在大规模上,关于HLE的主流意见分为三类:
1. HLE真正有用且必要
约60%的意见倾向于这一集体看法。他们认为,目前HLE至关重要的一个技术原因是:以前的AI系统基准和测试框架,包括不算太旧的语言模型基准如MMLU(大规模多任务语言理解),已经饱和或过时,几乎所有现代AI都能在其中获得90%以上的分数。这使得无法真正比较最新模型以确定哪个最佳。许多专家称赞HLE的一个显著原因是,它衡量了AI是否愿意说“我不知道”,而不是在无法解决的复杂问题或难题上产生幻觉。
2. HLE分散了对真正AI的关注
这一怀疑观点约占30%的意见。这些专家认为,该测试并不能真正评估AI在日常生活场景中的性能和成功,而是完全基于过度学术化和晦涩的知识。一些工程师甚至讽刺地表示,一旦AI开始在HLE中获得90%以上的分数,企业就会争先恐后地创建HLE 2,如此循环,从而巩固了有利于大公司的营销“仓鼠轮”。
3. HLE有缺陷
这是三种主流意见中最小的一种,主要在数据科学论坛中讨论。他们声称HLE在某些被标记为正确的答案中存在错误,特别是在化学和高等数学等领域的某些小众问题上。颇具诗意的是,正是最强大的AI系统本身开始检测到基准中的这些错误。
总结
总而言之,HLE的实用性并未被否认,并且在某种程度上,许多专家强调了其重要性,尽管其命名被广泛认为是纯粹的营销戏剧。利用这一基准似乎不太可能决定超级AI的诞生或通用人工智能(AGI)的真正出现——这一概念已经讨论多年,但仍然是科幻多于现实。尽管如此,该基准被视为一个非常雄心勃勃的工具,用于辨别哪个人工智能或公司拥有最佳的记忆和逻辑能力模型。
*伊万·帕洛马雷斯·卡拉斯科萨是一位在AI、机器学习、深度学习和LLM领域的领导者、作家、演讲者和顾问。他培训和指导他人如何在现实世界中利用AI。*