2026-07-02 20:00 UTC+8站内改写2 分钟阅读更新: 2026-07-02 20:36 UTC+8

人类最后的考试是个分心物

本文深入探讨了“人类最后的考试”（HLE）这一基准测试，阐述了其创建原因、专家们的不同观点，并总结出主流看法：HLE虽有用，但命名有营销之嫌，且未必能催生通用人工智能。

来源KDnuggets作者: Iván Palomares Carrascosa

引言

“人类最后的考试”（Humanity's Last Exam, HLE）是一个旨在衡量现代人工智能系统推理和深度知识能力的基准测试。其定义性特征在于：它将评估标准推向了极致。可以将其视为几十年前诞生的图灵测试在当今的进化版本。

本文旨在温和地探讨这一基准，概述其创建原因，汇集该领域专家群体的多元观点，并总结最广为接受的结论。

为何构建HLE及其内容？

随着AI系统的发展，传统测试方法变得过时，因为它们开始毫不费力地获得满分。为此，AI安全中心与Scale AI合作，借助世界顶级专家创建了名为HLE的新基准。该基准于2026年1月发表在《自然》杂志上，这是迄今为止最负盛名的科学期刊。HLE经过精心设计，避免了以往评估框架中重复出现的模式。

那么，HLE究竟是什么呢？它是一项面向最先进AI系统（如语言模型）的考试，包含2500多个专家级问题，涵盖一百多个学术学科，包括但不限于物理、数学、生物、人文学科等。重要的是，这些问题无法通过记忆回答，也不局限于简单的信息检索或多项选择。相反，它们要求复杂的演绎推理和深刻的理解。

以下是两个示例问题：

[图片：两个HLE示例问题。图片来源：AI安全中心]

让我们看看迄今为止最先进模型取得的结果：即使是最前沿的模型，如GPT、Gemini或Claude，总体准确率也勉强超过45-50%。这些数字本身就说明了考试的难度之大。此外，他们常常由于对自己回答错误的问题表现得过于自信而导致失败。

专家对HLE的主流看法是什么？

诚实的答案是：几乎没有共识。技术、开发者和学术界的意见分歧很大，但有一种微妙的、占主导地位的倾向，即承认HLE具有一些实际效用。不过，其中存在关键的细微差别。

总体而言，熟悉HLE的专家和广大公众并不完全认为这是一项无意义的举措，但他们呼吁对其夸张的、似乎面向营销的命名方式提出批评。

在大规模上，关于HLE的主流意见分为三类：

1. HLE真正有用且必要

约60%的意见倾向于这一集体看法。他们认为，目前HLE至关重要的一个技术原因是：以前的AI系统基准和测试框架，包括不算太旧的语言模型基准如MMLU（大规模多任务语言理解），已经饱和或过时，几乎所有现代AI都能在其中获得90%以上的分数。这使得无法真正比较最新模型以确定哪个最佳。许多专家称赞HLE的一个显著原因是，它衡量了AI是否愿意说“我不知道”，而不是在无法解决的复杂问题或难题上产生幻觉。

2. HLE分散了对真正AI的关注

这一怀疑观点约占30%的意见。这些专家认为，该测试并不能真正评估AI在日常生活场景中的性能和成功，而是完全基于过度学术化和晦涩的知识。一些工程师甚至讽刺地表示，一旦AI开始在HLE中获得90%以上的分数，企业就会争先恐后地创建HLE 2，如此循环，从而巩固了有利于大公司的营销“仓鼠轮”。

3. HLE有缺陷

这是三种主流意见中最小的一种，主要在数据科学论坛中讨论。他们声称HLE在某些被标记为正确的答案中存在错误，特别是在化学和高等数学等领域的某些小众问题上。颇具诗意的是，正是最强大的AI系统本身开始检测到基准中的这些错误。

总结

总而言之，HLE的实用性并未被否认，并且在某种程度上，许多专家强调了其重要性，尽管其命名被广泛认为是纯粹的营销戏剧。利用这一基准似乎不太可能决定超级AI的诞生或通用人工智能（AGI）的真正出现——这一概念已经讨论多年，但仍然是科幻多于现实。尽管如此，该基准被视为一个非常雄心勃勃的工具，用于辨别哪个人工智能或公司拥有最佳的记忆和逻辑能力模型。

*伊万·帕洛马雷斯·卡拉斯科萨是一位在AI、机器学习、深度学习和LLM领域的领导者、作家、演讲者和顾问。他培训和指导他人如何在现实世界中利用AI。*