AstaBench更新:新结果与行业采用
AstaBench最新更新增加了包括GPT-5.5在内的前沿模型结果,并突出了来自英国AISI、General Reasoning、Elicit、SciSpace、Distyl AI和EvoScientist等机构的日益增长的采用。
AstaBench更新:新结果与行业采用
AstaBench是Ai2推出的开放基准测试,用于衡量AI智能体的科学研究能力。最新更新中,我们对包括GPT-5.5在内的最强大前沿模型进行了测试,涉及超过2400个研究问题,并更新了排行榜。自去年8月发布以来,AI在编码、推理和语言任务上进步迅速,我们想知道这些进步有多少能迁移到更困难、更混乱的科学研究工作中。
同时,我们也高兴地分享,AstaBench正获得来自Ai2以外的广泛采用,包括英国AI安全研究所(UK AISI)和General Reasoning,以及来自Elicit、SciSpace、Distyl AI和EvoScientist等组织的智能体提交。
AstaBench是什么?
随着数十种AI智能体和模型可用于科学工作——许多仅通过专有API访问且测试方式各异——很难知道哪些在具有挑战性的研究任务上表现良好。因此,我们创建了AstaBench,连同我们的开放生态系统Asta一同发布,后者用于构建强大的科学AI智能体。
该基准测试在四个类别中测试智能体:查找和理解科学文献、编写和执行代码、分析数据集,以及运行端到端的发现工作流。评估框架、工具以及大量基线智能体(包括通用型和科学优化型)均为开源。更多信息请参阅我们的AstaBench论文,该论文在2026年国际学习表征大会(ICLR)上作为口头报告展示。
去年8月首次发布结果时,得分最高的智能体Asta v0整体得分约53%。但性能不均衡:智能体在文献搜索和代码执行等聚焦任务上表现尚可,但端到端发现则是另一回事。在E2E-Bench-Hard子任务中,要求智能体将一个研究想法完整实现为工作代码和书面报告,无任何简化或脚手架,我们最好的智能体仅完美完成了3%的任务。实际上,它通常能成功完成约60-70%的必要步骤,但仍未能完成整个任务。AI可以帮助科学过程的单个步骤,但将它们串联成完整工作流仍然是一个更难的问题。
测试的新模型
自发布以来,多个主要模型已推出,其中许多具备更强的推理能力。我们使用ReAct智能体框架测试了以下模型:
- Claude Opus 4.7、Claude Opus 4.6、Claude Sonnet 4.6(扩展思考,最大努力,自适应思考)
- GPT-5.5和GPT-5.4(xhigh推理)
- Gemini 3.1 Pro Preview(高思考)
在总体排行榜上,Claude Opus 4.7以58.0%的整体得分排名第一,平均每个问题成本3.54美元;紧随其后的是Claude Opus 4.6(55.3%)和Claude Sonnet 4.6(54.5%)。GPT-5.5达到52.9%,每个问题成本1.61美元,略低于Asta v0(53.0%),成为本轮测试中最强的非Claude前沿模型。Gemini 3.1 Pro Preview达到49.6%,GPT-5.4为46.5%。有趣的是,所有这些结果在质量-成本帕累托前沿上相互关联,具体偏好取决于期望的质量-成本权衡。
与去年初始前沿模型结果相比,新运行显示出四个明显变化:
- 最高分整体显著提升,但基准测试远未解决。
- 各类别增益不均:代码与执行、端到端发现类别大幅提升,而数据分析和文献理解类别仅适度提升。
- 各提供商的成本急剧上升,性能最强的Claude配置在绝对成本上最昂贵。
- GPT-5.5提高了非Claude前沿模型的上限,尤其在组件任务上,但在最难的端到端工作流上仍显挣扎。
分类结果显示领域分化。在当前前沿运行中,GPT-5.5在代码与执行和数据分析上领先,并在文献理解上略微领先最佳Claude运行。Claude Opus 4.7在端到端发现上仍领先,但需要注意的是,端到端发现也由Claude模型评判。
纵观前沿运行,更好的性能通常伴随着更高的平均成本——这一模式在Claude家族中最明显,该家族也产生了总体最佳结果。在Claude运行内部,Opus 4.7比Opus 4.6整体提升2.7个百分点,但成本陡增:每个问题成本增加约62%。大部分成本和得分增长来自端到端发现,其中Opus 4.7领先10.2个百分点(17%),但步骤多54%,成本高65%。部分成本增长可能反映了Opus 4.7的新分词器,已知对相同文本的token计数会放大1.0-1.35倍。值得注意的是,Opus 4.7在代码与执行上略逊于4.6,尽管成本更高,表明其并非纯粹改进。
GPT-5.5改变了成本-性能格局。它整体上仅落后Opus 4.7 5.1个百分点,而每个问题成本不到后者一半,并在多个分类评估中以低于最佳Claude运行的成本领先。但其较弱的端到端发现结果表明,强大的编码、文献理解和数据分析能力并不会自动转化为稳健的端到端科学工作。
GPT-5.4和Gemini 3.1 Pro Preview现在总体低于GPT-5.5,但两者在较低成本下仍具竞争力。数据分析在新前沿运行中相对便宜,最高结果在0.18至0.44美元之间,而得分最高的端到端发现运行则昂贵得多。最近的进步在最难的工作流中最大,成本也是如此。
总体而言,这些指标表明前沿模型在科学任务上进步迅速,但不均衡——且任重道远。GPT-5.5提高了几项组件技能的上限,尤其是编码与执行和数据分析。但最难的基准类别仍然将能解决个别科学子任务的模型与能执行完整研究工作流的智能体区分开来。
行业采用
AstaBench旨在成为行业标准,我们很高兴看到智能体提交到排行榜的数量增加以及采用范围的扩大。
英国AISI。Inspect Evals是一个使用英国AISI的Inspect框架构建的开放LLM评估集合。共同创建Inspect Evals的Arcadia Impact正在将AstaBench添加到此集合中,使其更易于安全研究人员和AI开发者使用。Arcadia还使用了AstaBench。Arcadia Impact AI安全负责人Justin Olive表示:“AstaBench是AI评估生态系统的一个极佳补充。标准化和二次分析的需求迫切,这一倡议在这两个领域都做出了重要贡献。在英国AISI最先进的Inspect框架上构建这项工作展现了战略远见,并反映了Ai2对开放科学和研究影响的真诚承诺。”
General Reasoning。AI研发公司General Reasoning正在构建用于强化学习(RL)的基础设施,已在他们的OpenReward平台上实现了一个AstaBench任务(SUPER-Expert)作为环境,该平台用于大规模托管RL环境。General Reasoning联合创始人兼CEO Ross Taylor表示:“AstaBench提供了一套令人印象深刻的科学环境,用于测试和训练复杂的智能体,我们已努力将其集成到我们的OpenReward平台中。我们非常感谢Ai2在这一领域的开放研究。”
亲自尝试
如果你想在AstaBench上测试自己的智能体,所需的一切都在AstaBench和agent-baselines仓库中。我们接受外部提交到排行榜,并正在努力简化这一过程。
我们构建AstaBench是因为我们认为,AI是否能进行真正科学研究的问题需要开放、严谨的测量,任何人都可以验证和在此基础上构建。新的结果和围绕该套件不断壮大的社区使我们更接近这一愿景。
请亲自查看排行榜。