AI News HubLIVE
サイト内リライト5 分で読了

AstaBenchアップデート:新たな結果と業界での採用

AstaBenchの最新アップデートでは、GPT-5.5を含むフロンティアモデルの新たな結果が追加され、英国AISI、General Reasoning、Elicit、SciSpace、Distyl AI、EvoScientistなどからの採用が拡大していることを強調しています。

ソースAi2 Blog

AstaBenchアップデート:新たな結果と業界での採用

AstaBenchは、AIエージェントの科学研究能力を測定するためのオープンベンチマークです。最新のアップデートでは、GPT-5.5を含む最先端のフロンティアモデルを2,400以上の研究課題でテストし、リーダーボードを更新しました。昨年8月の公開以来、AIはコーディング、推論、言語タスクで急速に進歩しており、その進歩が科学研究というより困難で複雑な作業にどの程度移行するかを調べることを目的としています。

また、AstaBenchはAi2以外でも採用が広がっており、英国AIセキュリティ研究所(UK AISI)やGeneral Reasoning、さらにElicit、SciSpace、Distyl AI、EvoScientistなどの組織からのエージェント提出が行われています。

AstaBenchとは

科学研究のためのAIエージェントやモデルが数十存在し、その多くは専用API経由でのみアクセス可能で、テスト方法も異なるため、どのモデルが困難な研究課題で優れているかを知るのは困難です。そこで、Ai2はAstaBenchを創設し、有能な科学AIエージェントのためのオープンエコシステムであるAstaとともに公開しました。

ベンチマークは、科学文献の発見と理解、コードの作成と実行、データセットの分析、エンドツーエンドの発見ワークフローの4カテゴリの数千の課題でエージェントをテストします。評価フレームワーク、ツール、多数のベースラインエージェント(汎用型および科学最適化型)はすべてオープンソースです。詳細はAstaBench論文(2026年国際学習表現会議ICLRで口頭発表)をご覧ください。

昨年8月の初回結果では、最高得点のエージェントAsta v0が全体で約53%を達成しました。しかし、性能は不均一で、文献検索やコード実行などの焦点タスクでは良好でしたが、エンドツーエンド発見は別問題でした。サブタスクE2E-Bench-Hardでは、研究アイデアを作動コードとレポートにまで完全に仕上げることが求められ、最良のエージェントでも完全に完了したタスクはわずか3%でした。実際には、必要なステップの約60~70%は成功するものの、タスク全体を完了できませんでした。AIは科学プロセスの個別ステップを支援できますが、それらを完全なワークフローに結びつけることは、はるかに難しい問題です。

テストした新モデル

公開以来、多くの主要モデルがリリースされ、その多くは強力な推論能力を備えています。ReActエージェントフレームワークを使用して以下のモデルをテストしました:

  • Claude Opus 4.7、Claude Opus 4.6、Claude Sonnet 4.6(拡張思考、最大努力、適応思考)
  • GPT-5.5およびGPT-5.4(xhigh推論)
  • Gemini 3.1 Pro Preview(高思考)

総合リーダーボードでは、Claude Opus 4.7が全体58.0%でトップ、1問題あたり平均コスト3.54ドル。次いでClaude Opus 4.6(55.3%)、Claude Sonnet 4.6(54.5%)。GPT-5.5は52.9%を達成し、1問題あたり1.61ドルで、Asta v0(53.0%)にわずかに及ばないものの、非Claudeフロンティアモデルで最強です。Gemini 3.1 Pro Previewは49.6%、GPT-5.4は46.5%でした。興味深いことに、これらの結果はすべて品質コストのパレートフロンティア上にあり、望ましい品質コストのトレードオフに応じてどれも選択可能です。

昨年の初期フロンティアモデル結果と比較して、今回のランでは4つの明確な変化が見られます:

  1. トップスコアは全体的に大幅に向上しましたが、ベンチマークはまだ解決には遠い。
  2. カテゴリ別の向上は不均一:コード実行とエンドツーエンド発見で大幅向上、データ分析と文献理解では中程度。
  3. プロバイダー間でコストが急上昇、最も高性能なClaude設定が絶対コストで最も高価。
  4. GPT-5.5は非Claudeフロンティアモデルの上限を引き上げ、特にコンポーネントタスクで顕著だが、最も困難なエンドツーエンドワークフローでは依然として苦戦。

カテゴリ結果は分野の分裂を示しています。現在のフロンティアランの中で、GPT-5.5はコード実行とデータ分析でリードし、文献理解でトップClaudeランをわずかに上回ります。Claude Opus 4.7はエンドツーエンド発見でリードしますが、このタスクはClaudeモデルによって評価されていることに注意が必要です。

フロンティアラン全体で、高性能は通常高い平均コストを伴います。このパターンはClaudeファミリーで最も強く、全体的なトップ結果も生み出しています。Claudeラン内では、Opus 4.7はOpus 4.6より全体で2.7ポイント向上しましたが、コストは1問題あたり約62%増加しています。コストとスコアの増加の大部分はエンドツーエンド発見によるもので、Opus 4.7は10.2ポイント(17%)リードする一方、ステップ数は54%増、コストは65%増です。コスト増の一部は、Opus 4.7の新しいトークナイザーによるもので、同じテキストに対してトークン数を1.0~1.35倍に拡大することが知られています。注目すべきは、Opus 4.7がコード実行で4.6にわずかに劣り、コストも高いことです。

GPT-5.5はコストパフォーマンスの状況を変えます。全体でOpus 4.7に5.1ポイント差に迫りながら、コストは半分以下で、複数のカテゴリ評価でトップClaudeランよりも低コストでリードします。しかし、エンドツーエンド発見の結果が弱いことは、コーディング、文献理解、データ分析での強力な性能が自動的に堅牢なエンドツーエンドの科学作業につながらないことを示しています。

GPT-5.4とGemini 3.1 Pro Previewは全体でGPT-5.5を下回りますが、どちらも低コストで一部のカテゴリでは競争力を維持しています。データ分析は新しいフロンティアランで比較的安価で、トップ結果は0.18~0.44ドルですが、最高得点のエンドツーエンド発見ランははるかに高価です。最近の進歩は最も困難なワークフローで最大であり、コストも同様です。

総じて、これらの指標はフロンティアモデルが科学タスクで急速に向上しているが、不均一で、まだ長い道のりがあることを示しています。GPT-5.5はいくつかのコンポーネントスキル(特にコード実行とデータ分析)の上限を引き上げましたが、最も困難なベンチマークカテゴリは、個別の科学サブタスクを解決できるモデルと、完全な研究ワークフローを実行できるエージェントを依然として区別しています。

業界での採用

AstaBenchは業界標準となることを目指しており、リーダーボードへのエージェント提出の増加と採用の拡大を喜ばしく思っています。

英国AISI。Inspect Evalsは、英国AISIのInspectフレームワークを使用して構築されたオープンなLLM評価コレクションです。Inspect Evalsを共同作成したArcadia Impactは、AstaBenchをこのコレクションに追加する作業を進めており、AstaBenchをより幅広い安全性研究者やAI開発者が利用しやすくしています。Arcadia ImpactのAI安全性責任者Justin Olive氏は、「AstaBenchはAI評価エコシステムへの優れた追加です。標準化と二次分析が緊急に必要であり、この取り組みは両方の分野で重要な貢献をしています。英国AISIの最先端Inspectフレームワーク上にこの作業を構築することは、戦略的先見性を示し、Ai2のオープンサイエンスと研究影響への真摯なコミットメントを反映しています」と述べています。

General Reasoning。強化学習(RL)のためのインフラを構築するAI R&D企業General Reasoningは、自社のOpenRewardプラットフォーム上でAstaBenchタスク(SUPER-Expert)を環境として実装しました。General Reasoningの共同創業者兼CEO Ross Taylor氏は、「AstaBenchは、高度なエージェントをテストおよびトレーニングするための印象的な科学環境スイートを提供しており、当社のOpenRewardプラットフォームに統合するよう取り組んできました。この分野におけるAi2のオープンリサーチに深く感謝しています」と述べています。

自分で試す

AstaBenchで独自のエージェントをテストしたい場合、必要なものはすべてAstaBenchおよびagent-baselinesリポジトリにあります。外部からのリーダーボード提出も受け付けており、プロセスを容易にするよう取り組んでいます。

AstaBenchを構築した理由は、AIが実際の科学を行えるかどうかという問いには、誰でも検証・構築できるオープンで厳密な測定が必要だと考えるからです。新しい結果とこのスイートを中心に成長するコミュニティは、そのビジョンに近づいています。

リーダーボードで実際にご確認ください。