フロンティア言語モデルの知能の経時変化
Artificial Analysisは独立した知能指数で主要なAIモデルの知能を経時的に追跡しています。この指数は10の評価を含み、推論、コーディング、知識などをカバーし、ユーザーが最適なモデルを選ぶのに役立ちます。
人工知能分析プラットフォームのArtificial Analysisは、主要な言語モデルの知能を独立した評価で経時的に追跡するArtificial Analysis Intelligence Indexを更新しました。v4.0では、GDPval-AA(現実の業務タスク)、Terminal-Bench Hard(ターミナルコーディング)、SciCode(プログラミング)、AA-LCR(長文脈推論)、AA-Omniscience(知識と幻覚)、IFBench(指示追従)、Humanity's Last Exam(総合推論)、GPQA Diamond(科学的推論)、CritPt(物理推論)の10の評価を統合しています。この指数は知能だけでなく、速度や価格といった実用的指標も組み合わせ、ユーザーが用途に最適なモデルを選択できるよう支援します。
最新データによると、AnthropicのClaude Fable 5が指数で首位となり、公開モデルとして初めて「神話級」に達しました。また、GoogleのGemma 4、CohereのNorth Mini Codeなどの新たなモデル評価も追加されました。さらに、Artificial Analysisはコーディングエージェントベンチマーク(Coding Agent Benchmarks)とエージェント推論ベンチマーク(AA-AgentPerf)を発表し、評価範囲を拡大しています。ユーザーはデータプレイグラウンドでカスタムチャートを作成し、モデルやプロバイダー間の比較が可能です。
中心指数に加えて、プラットフォームはユーザーの優先度に基づくパーソナライズドモデルレコメンダーを提供します。また、画像・ビデオリーダーボード、開放性指数(Openness Index)、詳細なコスト効率分析も公開されています。例えば、AA-Omniscienceベンチマークは知識の信頼性と幻覚率を評価し、スコアは-100から100の範囲で、負のスコアは誤回答が多いことを示します。GDPval-AAは、オープンソースツールStirrupを使用して現実業務におけるエージェント性能を評価します。ITBench-AAはKubernetesインシデントの根本原因分析に特化しています。これらの多角的な評価により、フロンティア言語モデルの知能の全体像が明らかになっています。