人類最後的考試是個分心物
本文深入探討了“人類最後的考試”(HLE)這一基準測試,闡述了其創建原因、專家們的不同觀點,並總結出主流看法:HLE雖有用,但命名有營銷之嫌,且未必能催生通用人工智能。
引言
“人類最後的考試”(Humanity's Last Exam, HLE)是一個旨在衡量現代人工智能系統推理和深度知識能力的基準測試。其定義性特徵在於:它將評估標準推向了極致。可以將其視為幾十年前誕生的圖靈測試在當今的進化版本。
本文旨在温和地探討這一基準,概述其創建原因,彙集該領域專家羣體的多元觀點,並總結最廣為接受的結論。
為何構建HLE及其內容?
隨着AI系統的發展,傳統測試方法變得過時,因為它們開始毫不費力地獲得滿分。為此,AI安全中心與Scale AI合作,藉助世界頂級專家創建了名為HLE的新基準。該基準於2026年1月發表在《自然》雜誌上,這是迄今為止最負盛名的科學期刊。HLE經過精心設計,避免了以往評估框架中重複出現的模式。
那麼,HLE究竟是什麼呢?它是一項面向最先進AI系統(如語言模型)的考試,包含2500多個專家級問題,涵蓋一百多個學術學科,包括但不限於物理、數學、生物、人文學科等。重要的是,這些問題無法通過記憶回答,也不侷限於簡單的信息檢索或多項選擇。相反,它們要求複雜的演繹推理和深刻的理解。
以下是兩個示例問題:
[圖片:兩個HLE示例問題。圖片來源:AI安全中心]
讓我們看看迄今為止最先進模型取得的結果:即使是最前沿的模型,如GPT、Gemini或Claude,總體準確率也勉強超過45-50%。這些數字本身就説明了考試的難度之大。此外,他們常常由於對自己回答錯誤的問題表現得過於自信而導致失敗。
專家對HLE的主流看法是什麼?
誠實的答案是:幾乎沒有共識。技術、開發者和學術界的意見分歧很大,但有一種微妙的、佔主導地位的傾向,即承認HLE具有一些實際效用。不過,其中存在關鍵的細微差別。
總體而言,熟悉HLE的專家和廣大公眾並不完全認為這是一項無意義的舉措,但他們呼籲對其誇張的、似乎面向營銷的命名方式提出批評。
在大規模上,關於HLE的主流意見分為三類:
1. HLE真正有用且必要
約60%的意見傾向於這一集體看法。他們認為,目前HLE至關重要的一個技術原因是:以前的AI系統基準和測試框架,包括不算太舊的語言模型基準如MMLU(大規模多任務語言理解),已經飽和或過時,幾乎所有現代AI都能在其中獲得90%以上的分數。這使得無法真正比較最新模型以確定哪個最佳。許多專家稱讚HLE的一個顯著原因是,它衡量了AI是否願意説“我不知道”,而不是在無法解決的複雜問題或難題上產生幻覺。
2. HLE分散了對真正AI的關注
這一懷疑觀點約佔30%的意見。這些專家認為,該測試並不能真正評估AI在日常生活場景中的性能和成功,而是完全基於過度學術化和晦澀的知識。一些工程師甚至諷刺地表示,一旦AI開始在HLE中獲得90%以上的分數,企業就會爭先恐後地創建HLE 2,如此循環,從而鞏固了有利於大公司的營銷“倉鼠輪”。
3. HLE有缺陷
這是三種主流意見中最小的一種,主要在數據科學論壇中討論。他們聲稱HLE在某些被標記為正確的答案中存在錯誤,特別是在化學和高等數學等領域的某些小眾問題上。頗具詩意的是,正是最強大的AI系統本身開始檢測到基準中的這些錯誤。
總結
總而言之,HLE的實用性並未被否認,並且在某種程度上,許多專家強調了其重要性,儘管其命名被廣泛認為是純粹的營銷戲劇。利用這一基準似乎不太可能決定超級AI的誕生或通用人工智能(AGI)的真正出現——這一概念已經討論多年,但仍然是科幻多於現實。儘管如此,該基準被視為一個非常雄心勃勃的工具,用於辨別哪個人工智能或公司擁有最佳的記憶和邏輯能力模型。
*伊萬·帕洛馬雷斯·卡拉斯科薩是一位在AI、機器學習、深度學習和LLM領域的領導者、作家、演講者和顧問。他培訓和指導他人如何在現實世界中利用AI。*