AI News HubLIVE
サイト内リライト2 分で読了

AI性能の測定がますます難しくなる理由

AIベンチマークは飽和と測定精度の低下に直面している。有名なMETRチャートは急速な進歩を示すが、最新データの信頼区間は広く、ベンチマーク自体が限界に近づいている。AIがより長時間のタスクを処理するにつれ、従来の測定方法は現実の複雑さを捉えきれず、測定能力と実用的能力の乖離が拡大する可能性がある。

ソースUnderstanding AI著者: Timothy B. Lee

人工知能の性能を測るベンチマークが、かつてない課題に直面している。最も有名な「METRチャート」はAIの急速な進歩を示しているが、最新のデータは測定精度の深刻な問題を露呈している。

METR(モデル評価と脅威研究)はカリフォルニア州バークレーに拠点を置き、AIモデルが完了できるソフトウェアエンジニアリングタスクの複雑さを、人間のプログラマーが同じタスクを完了するのにかかる時間で比較するチャートで知られている。データによれば、GPT-3.5は人間で30秒のタスク、GPT-4は4分、2024年12月リリースのo1推論モデルは40分、2025年8月のGPT-5は3時間、そしてAnthropicが2月にリリースしたClaude Opus 4.6は12時間のタスクを完了できる。

しかし、METRのタスク時間ページでClaude Opus 4.6の点をホバーすると、信頼区間が5時間から66時間に及ぶことがわかる。METRのDavid ReinはTwitterで「測定結果が極めて不安定だと言う時、それは本気です」と強調した。問題は、Claude Opus 4.6がテストスイート中最も難しい問題の一部を解けてしまい、能力の上限を特定できなくなったことにある。このため、ここ数ヶ月に見られる「加速」が本当なのか、統計上のアーティファクトなのかは不明だ。

ベンチマークは通常、低スコアから飽和に至るライフサイクルをたどる。MMLU(大規模マルチタスク言語理解)を例にとると、2020年のGPT-3は43.9%だったが、2025年にはトップモデルが88%~93%で頭打ちとなり、理論上限(約93%、問題の約6.5%に誤りがあるため)に近づいている。AI企業はMMLUスコアの報告をやめており、このベンチマークは飽和した。

METRのベンチマークは独創的なアプローチを採用している。タスクの難易度は数秒の簡単なものから数十時間の複雑なプログラミングまで幅広く、人間の完了時間を実際に測定することでモデル間の比較を可能にしている。例えば、GPT-2は2秒のタスクしかできなかったが、GPT-5は3時間のタスクを達成し、5400倍の差がある。この傾向(6~7ヶ月でタスク時間が倍増)が続けば、来年には週単位(40時間)、2028年には月単位(160時間)のタスクをこなすAIが登場するかもしれない。

しかし、METRのベンチマーク自体も飽和に近づいている。現在のテストスイートで最も難しい30時間級のタスクはすでに克服され、能力測定に大きな不確実性が生じている。METRのJoel Beckerはポッドキャストで「テストスイートから1つのタスクを削除したり追加したりするだけで、測定結果が14.5時間から8時間や20時間に変わる可能性がある」と語った。ベンチマークを延命するには40時間、80時間、160時間級のタスクを追加する必要があるが、現実的な困難が伴う。160時間のタスクのベースラインを得るには、人間のプログラマーに最低でも時給50ドル、合計8000ドル以上を支払う必要があり、さらに数週間を要するタスクに進んで取り組む経験豊富なプログラマーを見つけるのは難しい。

さらに深い概念上の問題として、現実の仕事は定義が曖昧で、協力を必要とし、目標が動的に変化することが多い。既存のベンチマークは明確に定義され、自動検証可能な独立したタスクの測定に優れているが、実際のワークプレースの複雑さを捉えきれない。AIがより長時間のタスクを担うようになると、測定可能な能力と実際に有用な能力の乖離はますます大きくなるだろう。

METRの苦境は決して孤立した事例ではない。AI分野全体が、急速な進歩に伴う測定の課題に直面している。ベンチマークの進化には、より難しい問題の追加だけでなく、真に価値のある能力を評価する方法の再考が必要とされている。