2026-06-14站内改写1 分で読了更新: 2026-06-14

フロンティア言語モデルの知能の経時変化

Artificial Analysisは独立した知能指数で主要なAIモデルの知能を経時的に追跡しています。この指数は10の評価を含み、推論、コーディング、知識などをカバーし、ユーザーが最適なモデルを選ぶのに役立ちます。

ソースHacker News AI著者: doener

人工知能分析プラットフォームのArtificial Analysisは、主要な言語モデルの知能を独立した評価で経時的に追跡するArtificial Analysis Intelligence Indexを更新しました。v4.0では、GDPval-AA（現実の業務タスク）、Terminal-Bench Hard（ターミナルコーディング）、SciCode（プログラミング）、AA-LCR（長文脈推論）、AA-Omniscience（知識と幻覚）、IFBench（指示追従）、Humanity's Last Exam（総合推論）、GPQA Diamond（科学的推論）、CritPt（物理推論）の10の評価を統合しています。この指数は知能だけでなく、速度や価格といった実用的指標も組み合わせ、ユーザーが用途に最適なモデルを選択できるよう支援します。

最新データによると、AnthropicのClaude Fable 5が指数で首位となり、公開モデルとして初めて「神話級」に達しました。また、GoogleのGemma 4、CohereのNorth Mini Codeなどの新たなモデル評価も追加されました。さらに、Artificial Analysisはコーディングエージェントベンチマーク（Coding Agent Benchmarks）とエージェント推論ベンチマーク（AA-AgentPerf）を発表し、評価範囲を拡大しています。ユーザーはデータプレイグラウンドでカスタムチャートを作成し、モデルやプロバイダー間の比較が可能です。

中心指数に加えて、プラットフォームはユーザーの優先度に基づくパーソナライズドモデルレコメンダーを提供します。また、画像・ビデオリーダーボード、開放性指数（Openness Index）、詳細なコスト効率分析も公開されています。例えば、AA-Omniscienceベンチマークは知識の信頼性と幻覚率を評価し、スコアは-100から100の範囲で、負のスコアは誤回答が多いことを示します。GDPval-AAは、オープンソースツールStirrupを使用して現実業務におけるエージェント性能を評価します。ITBench-AAはKubernetesインシデントの根本原因分析に特化しています。これらの多角的な評価により、フロンティア言語モデルの知能の全体像が明らかになっています。