2026-07-02 21:00 UTC+9サイト内リライト3 分で読了更新: 2026-07-02 21:36 UTC+9

人類最後の試験は気晴らしにすぎない

本記事では、AIシステムの究極評価ベンチマーク「人類最後の試験（HLE）」について、その作成理由、専門家の多様な意見を紹介し、最も広く受け入れられた見解をまとめています。

ソースKDnuggets著者: Iván Palomares Carrascosa

記事インテリジェンス

エンジニア中級

要点

HLEは、AI安全センターとScale AIが作成した2500以上の専門家レベルの問題からなるベンチマークで、100以上の学問分野をカバーしています。
最先端のAIモデルでもHLEの正解率は45～50%にとどまり、過信による誤回答が目立ちます。
専門家の約60%がHLEは有用で必要と評価する一方、30%は現実のAI応用から注意をそらすものと批判しています。
少数派ですが、HLEの問題自体に誤りがあるとの指摘もあり、AI自身がそれを発見しています。

重要な理由

このニュースが重要なのは、HLEは、AI安全センターとScale AIが作成した2500以上の専門家レベルの問題からなるベンチマークで、100以上の学問分野をカバーしていますためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

このパネルは AI が生成し、正確性を確認済みです。

はじめに

「人類最後の試験」（Humanity's Last Exam, HLE）は、最新のAIシステムの推論と深い知識の能力を測定するために設計されたベンチマークです。その特徴は、評価基準を極限まで押し上げた点にあります。これは数十年前に生まれたチューリングテストの現代版と言えるでしょう。

本記事では、このベンチマークについて、その作成理由、専門家コミュニティからの多様な意見を取り上げ、最も広く受け入れられている結論をまとめます。

HLEが作られた理由とその内容

従来のAIシステムで使われていたテスト手法は、AIが進化し簡単に満点を取るようになったため、時代遅れになりました。そのため、AI安全センターはScale AIと協力し、世界の専門家の助けを借りてHLEという新しいベンチマークを作成しました。このベンチマークは2026年1月、最も権威ある科学誌である『ネイチャー』に掲載されました。HLEは、以前の評価フレームワークのようにパターンが繰り返されることを避けるよう慎重に設計されています。

では、HLEとは何でしょうか？これは、最先端のAIシステム（言語モデルなど）が受験する試験であり、物理学、数学、生物学、人文科学などを含む100以上の学術分野にわたる2500以上の専門家レベルの問題で構成されています。重要なのは、問題は暗記では答えられず、単純な情報検索や多肢選択に限定されないことです。代わりに、複雑な演繹的推論と深い理解が求められます。

以下に2つの問題例を示します。

[画像：HLEの問題例。出典：AI安全センター]

これまでの最先端モデルの結果を見てみましょう。GPT、Gemini、Claudeなどの最も洗練されたフロンティアモデルでさえ、全体的な正解率は45～50%をわずかに超える程度です。この数字は、試験の信じられないほどの難しさを物語っています。さらに、誤答に対して過信する傾向があるため、失敗することがよくあります。

HLEに関する専門家の支配的な意見は？

正直な答えは、ほとんどコンセンサスがないということです。技術者、開発者、学術コミュニティの間で意見は分かれていますが、HLEにいくつかの実用的価値を認める傾向が微妙に優勢です。ただし、重要なニュアンスがあります。

一般的に、HLEを知る専門家や幅広い人々は、それを完全に無意味な取り組みとは考えていませんが、誇張されたマーケティング志向の命名方法に異議を唱えています。

大まかに見ると、HLEに関する主要な意見グループは3つあります。

1. HLEは真に有用で必要

約60%の意見がこの集団的見解に傾いています。それによると、現在HLEが極めて重要である技術的理由は、以前のAIシステムのベンチマークやテストフレームワーク（MMLUなど）が飽和または時代遅れになり、ほとんどすべての現代のAIが90%以上のスコアを獲得していることです。これにより、最新モデルを互いに比較してどれが最良かを判断することが不可能になりました。多くの専門家がHLEを賞賛する顕著な理由の1つは、AIが扱えない複雑な問題に対して「わからない」と言えるかどうかを測定する点です。

2. HLEは真のAIからの気晴らし

この懐疑的な視点は、約30%の意見に採用されています。これらの専門家は、このテストは日常生活のシナリオにおけるAIのパフォーマンスと成功を真に評価するものではなく、純粋に過度に学術的で曖昧な知識に基づいていると考えています。一部のエンジニアは皮肉にも、AIがHLEで90%以上のスコアを獲得し始めるとすぐに、企業はHLE 2を作成するために殺到し、大企業に有利なマーケティングのハムスターホイールが固まると述べています。

3. HLEには欠陥がある

これは3つの主要意見の中で最も小さなグループであり、データサイエンスフォーラムなどで議論されています。彼らは、特に化学や高等数学のニッチな問題において、正解とされた回答の一部に誤りがあると主張しています。詩的なことに、最も強力なAIシステム自体がベンチマークのエラーを検出し始めています。

まとめ

要約すると、HLEの有用性は否定されておらず、ある程度まで多くの専門家がその重要性を強調していますが、その命名は純粋なマーケティングドラマであると広く見なされています。このベンチマークを活用しても、スーパーAIの誕生や汎用人工知能（AGI）の真の出現を決定する可能性は低いでしょう。この概念は何年も議論されてきましたが、現実というよりはまだフィクションの一部です。とはいえ、このベンチマークは、どのAIまたは企業が記憶と論理能力において最良のモデルを持つかを識別するための非常に野心的なツールと見なされています。

*イヴァン・パロマレス・カラスコサは、AI、機械学習、深層学習、LLMの分野におけるリーダー、ライター、スピーカー、アドバイザーです。彼は現実世界でAIを活用するよう他者を訓練し指導しています。*