2026-07-02 20:00 UTC+8站內改寫2 分鐘閱讀更新: 2026-07-02 20:36 UTC+8

人類最後的考試是個分心物

本文深入探討了“人類最後的考試”（HLE）這一基準測試，闡述了其創建原因、專家們的不同觀點，並總結出主流看法：HLE雖有用，但命名有營銷之嫌，且未必能催生通用人工智能。

來源KDnuggets作者: Iván Palomares Carrascosa

引言

“人類最後的考試”（Humanity's Last Exam, HLE）是一個旨在衡量現代人工智能系統推理和深度知識能力的基準測試。其定義性特徵在於：它將評估標準推向了極致。可以將其視為幾十年前誕生的圖靈測試在當今的進化版本。

本文旨在温和地探討這一基準，概述其創建原因，彙集該領域專家羣體的多元觀點，並總結最廣為接受的結論。

為何構建HLE及其內容？

隨着AI系統的發展，傳統測試方法變得過時，因為它們開始毫不費力地獲得滿分。為此，AI安全中心與Scale AI合作，藉助世界頂級專家創建了名為HLE的新基準。該基準於2026年1月發表在《自然》雜誌上，這是迄今為止最負盛名的科學期刊。HLE經過精心設計，避免了以往評估框架中重複出現的模式。

那麼，HLE究竟是什麼呢？它是一項面向最先進AI系統（如語言模型）的考試，包含2500多個專家級問題，涵蓋一百多個學術學科，包括但不限於物理、數學、生物、人文學科等。重要的是，這些問題無法通過記憶回答，也不侷限於簡單的信息檢索或多項選擇。相反，它們要求複雜的演繹推理和深刻的理解。

以下是兩個示例問題：

[圖片：兩個HLE示例問題。圖片來源：AI安全中心]

讓我們看看迄今為止最先進模型取得的結果：即使是最前沿的模型，如GPT、Gemini或Claude，總體準確率也勉強超過45-50%。這些數字本身就説明了考試的難度之大。此外，他們常常由於對自己回答錯誤的問題表現得過於自信而導致失敗。

專家對HLE的主流看法是什麼？

誠實的答案是：幾乎沒有共識。技術、開發者和學術界的意見分歧很大，但有一種微妙的、佔主導地位的傾向，即承認HLE具有一些實際效用。不過，其中存在關鍵的細微差別。

總體而言，熟悉HLE的專家和廣大公眾並不完全認為這是一項無意義的舉措，但他們呼籲對其誇張的、似乎面向營銷的命名方式提出批評。

在大規模上，關於HLE的主流意見分為三類：

1. HLE真正有用且必要

約60%的意見傾向於這一集體看法。他們認為，目前HLE至關重要的一個技術原因是：以前的AI系統基準和測試框架，包括不算太舊的語言模型基準如MMLU（大規模多任務語言理解），已經飽和或過時，幾乎所有現代AI都能在其中獲得90%以上的分數。這使得無法真正比較最新模型以確定哪個最佳。許多專家稱讚HLE的一個顯著原因是，它衡量了AI是否願意説“我不知道”，而不是在無法解決的複雜問題或難題上產生幻覺。

2. HLE分散了對真正AI的關注

這一懷疑觀點約佔30%的意見。這些專家認為，該測試並不能真正評估AI在日常生活場景中的性能和成功，而是完全基於過度學術化和晦澀的知識。一些工程師甚至諷刺地表示，一旦AI開始在HLE中獲得90%以上的分數，企業就會爭先恐後地創建HLE 2，如此循環，從而鞏固了有利於大公司的營銷“倉鼠輪”。

3. HLE有缺陷

這是三種主流意見中最小的一種，主要在數據科學論壇中討論。他們聲稱HLE在某些被標記為正確的答案中存在錯誤，特別是在化學和高等數學等領域的某些小眾問題上。頗具詩意的是，正是最強大的AI系統本身開始檢測到基準中的這些錯誤。

總結

總而言之，HLE的實用性並未被否認，並且在某種程度上，許多專家強調了其重要性，儘管其命名被廣泛認為是純粹的營銷戲劇。利用這一基準似乎不太可能決定超級AI的誕生或通用人工智能（AGI）的真正出現——這一概念已經討論多年，但仍然是科幻多於現實。儘管如此，該基準被視為一個非常雄心勃勃的工具，用於辨別哪個人工智能或公司擁有最佳的記憶和邏輯能力模型。

*伊萬·帕洛馬雷斯·卡拉斯科薩是一位在AI、機器學習、深度學習和LLM領域的領導者、作家、演講者和顧問。他培訓和指導他人如何在現實世界中利用AI。*