ADeLe:AIパフォーマンスをタスク横断で予測・説明する新手法
ADeLeは、Microsoft Researchがプリンストン大学とバレンシア工科大学と共同開発した手法で、18のコア能力(推論、ドメイン知識など)に基づいてAIモデルとタスクをスコアリングし、未知のタスクに対するパフォーマンスを約88%の精度で予測します。モデルの強みと弱みを明らかにし、従来のベンチマークを超えた説明可能なAI評価を提供します。
ADeLe:能力プロファイリングで単一基準を超え、AIのタスク横断パフォーマンスを予測・説明する
AIベンチマークは、大規模言語モデル(LLM)が特定のタスクでどのように機能するかを報告しますが、そのパフォーマンスを駆動する基礎的な能力についてはほとんど洞察を提供しません。失敗を説明したり、新しいタスクでの結果を確実に予測したりすることはできません。この問題に対処するため、Microsoft Researchはプリンストン大学およびバレンシア工科大学と協力して、ADeLe(AI Evaluation with Demand Levels)を導入しました。この手法は、推論やドメイン知識などの幅広い能力を使用してモデルとタスクの両方を特徴付け、新しいタスクのパフォーマンスを予測し、モデルの特定の強みと弱みに結び付けることを可能にします。
Nature誌に掲載された論文「General Scales Unlock AI Evaluation with Explanatory and Predictive Power」で、研究チームはADeLeがどのように集約ベンチマークスコアを超えるかを説明しています。評価を孤立したテストの集まりとして扱うのではなく、同じ能力スコアのセットを使用してベンチマークとLLMの両方を表現します。これらのスコアは、モデルがまだ遭遇したことのないタスクでどのように機能するかを推定するために使用できます。この研究は、MicrosoftのAccelerating Foundation Models Research(AFMR)助成プログラムによって支援されました。
ADeLeは、注意力、推論、ドメイン知識などの18のコア能力にわたってタスクをスコアリングし、各タスクが必要とする能力の量に基づいて0から5の値を割り当てます。例えば、基本的な算術問題は量的推論で低いスコアになるかもしれませんが、オリンピックレベルの証明問題ははるかに高いスコアになります。多くのタスクにわたってモデルを評価すると、能力プロファイルが生成されます。これは、モデルがどこで機能し、どこで故障するかを示す構造化されたビューです。このプロファイルを新しいタスクの要求と比較することで、失敗につながる特定のギャップを特定できます。
ADeLeを使用して、研究チームはさまざまなAIベンチマークとモデルの動作を評価し、現在の評価が何を捉え、何を見逃しているかを理解しました。結果は、多くの広く使用されているベンチマークが不完全で、時には誤解を招くモデル能力の全体像を提供し、より構造化されたアプローチがそれらのギャップを明確にし、新しい設定でモデルがどのように動作するかを予測するのに役立つことを示しています。ADeLeは、多くのベンチマークが測定しようとする能力を分離しておらず、難易度の範囲が限られていることを示しています。例えば、論理的推論を評価するように設計されたテストは、専門知識やメタ認知に大きく依存する場合があります。他のテストは狭い難易度範囲に焦点を当て、より単純なケースとより複雑なケースの両方を省略しています。タスクが必要とする能力に基づいてスコアリングすることにより、ADeLeはこれらの不一致を可視化し、既存のベンチマークを診断し、より良いものを設計する方法を提供します。
このフレームワークを15のLLMに適用し、研究チームは18の能力それぞれについて0〜5のスコアを使用して能力プロファイルを構築しました。各能力について、チームはパフォーマンスがタスクの難易度とともにどのように変化するかを測定し、モデルが50%の成功率を持つ難易度レベルを能力スコアとして使用しました。分析により、モデルは能力によって強みと弱みが異なることが示されました。新しいモデルは一般的に古いモデルよりも優れていますが、すべての能力で一貫しているわけではありません。知識集約的なタスクのパフォーマンスはモデルサイズとトレーニングに強く依存し、推論指向のモデルは論理、学習、抽象化、社会的推論を必要とするタスクで明確な利得を示します。これらのパターンは通常、複数の個別分析を必要とし、タスク要求が慎重に制御されていない場合、矛盾する結論を生む可能性があります。ADeLeは単一のフレームワーク内でこれらを浮き彫りにします。
ADeLeは予測も可能にします。モデルの能力プロファイルとタスクの要求を比較することで、未知のタスクであってもモデルが成功するかどうかを予測できます。実験では、このアプローチはGPT-4oやLLaMA-3.1-405Bなどのモデルで約88%の精度を達成し、従来の方法を上回りました。これにより、展開前に潜在的な失敗を説明し予測することが可能になり、AIモデル評価の信頼性と予測可能性が向上します。
AIシステムが本当に推論できるかどうかは、この分野の中心的な議論です。いくつかの研究は強力な推論パフォーマンスを報告していますが、他の研究は規模が大きくなると機能しなくなることを示しています。これらの結果はタスクの難易度の違いを反映しています。ADeLeは、「推論」としてラベル付けされたベンチマークが、基本的な問題解決から高度な論理、抽象化、ドメイン知識を必要とするタスクまで、要求が異なることを示しています。同じモデルが低要求テストで90%以上のスコアを獲得し、高要求テストで15%未満になることがあり、これは能力の変化ではなくタスク要求の違いを反映しています。OpenAIのo1やGPT-5のような推論指向モデルは、論理や数学だけでなく、ユーザーの意図の解釈においても測定可能な向上を示しています。しかし、タスク要求が増加するにつれてパフォーマンスは低下します。AIシステムは推論できますが、ある程度までであり、ADeLeは各モデルにとってその限界がどこにあるかを特定します。
ADeLeはAIの進歩とともに進化するように設計されており、マルチモーダルおよび身体化されたAIシステムに拡張できます。また、AI研究、政策立案、セキュリティ監査の標準化されたフレームワークとして機能する可能性があります。より広義には、システムの動作を説明しパフォーマンスを予測する、より体系的なAI評価アプローチを推進します。この研究は、心理測定学をAI評価に適用するMicrosoftの研究や、最近の社会AIに関する研究など、以前の取り組みに基づいています。
汎用AIシステムが既存の評価方法を追い越し続ける中、ADeLeのようなアプローチは、実際の使用におけるより厳格で透明な評価への道を提供します。研究チームは、より広いコミュニティを通じてこの取り組みを拡大するために取り組んでいます。追加の実験、ベンチマークアノテーション、リソースはGitHubで入手できます。