AI News HubLIVE
站內改寫4 分鐘閱讀

AstaBench更新:新結果與行業採用

AstaBench最新更新增加了包括GPT-5.5在內的前沿模型結果,並突出了來自英國AISI、General Reasoning、Elicit、SciSpace、Distyl AI和EvoScientist等機構的日益增長的採用。

來源Ai2 Blog

AstaBench更新:新結果與行業採用

AstaBench是Ai2推出的開放基準測試,用於衡量AI智慧體的科學研究能力。最新更新中,我們對包括GPT-5.5在內的最強大前沿模型進行了測試,涉及超過2400個研究問題,並更新了排行榜。自去年8月釋出以來,AI在編碼、推理和語言任務上進步迅速,我們想知道這些進步有多少能遷移到更困難、更混亂的科學研究工作中。

同時,我們也高興地分享,AstaBench正獲得來自Ai2以外的廣泛採用,包括英國AI安全研究所(UK AISI)和General Reasoning,以及來自Elicit、SciSpace、Distyl AI和EvoScientist等組織的智慧體提交。

AstaBench是什麼?

隨著數十種AI智慧體和模型可用於科學工作——許多僅透過專有API訪問且測試方式各異——很難知道哪些在具有挑戰性的研究任務上表現良好。因此,我們建立了AstaBench,連同我們的開放生態系統Asta一同釋出,後者用於構建強大的科學AI智慧體。

該基準測試在四個類別中測試智慧體:查詢和理解科學文獻、編寫和執行程式碼、分析資料集,以及執行端到端的發現工作流。評估框架、工具以及大量基線智慧體(包括通用型和科學最佳化型)均為開源。更多資訊請參閱我們的AstaBench論文,該論文在2026年國際學習表徵大會(ICLR)上作為口頭報告展示。

去年8月首次釋出結果時,得分最高的智慧體Asta v0整體得分約53%。但效能不均衡:智慧體在文獻搜尋和程式碼執行等聚焦任務上表現尚可,但端到端發現則是另一回事。在E2E-Bench-Hard子任務中,要求智慧體將一個研究想法完整實現為工作程式碼和書面報告,無任何簡化或腳手架,我們最好的智慧體僅完美完成了3%的任務。實際上,它通常能成功完成約60-70%的必要步驟,但仍未能完成整個任務。AI可以幫助科學過程的單個步驟,但將它們串聯成完整工作流仍然是一個更難的問題。

測試的新模型

自發布以來,多個主要模型已推出,其中許多具備更強的推理能力。我們使用ReAct智慧體框架測試了以下模型:

  • Claude Opus 4.7、Claude Opus 4.6、Claude Sonnet 4.6(擴充套件思考,最大努力,自適應思考)
  • GPT-5.5和GPT-5.4(xhigh推理)
  • Gemini 3.1 Pro Preview(高思考)

在總體排行榜上,Claude Opus 4.7以58.0%的整體得分排名第一,平均每個問題成本3.54美元;緊隨其後的是Claude Opus 4.6(55.3%)和Claude Sonnet 4.6(54.5%)。GPT-5.5達到52.9%,每個問題成本1.61美元,略低於Asta v0(53.0%),成為本輪測試中最強的非Claude前沿模型。Gemini 3.1 Pro Preview達到49.6%,GPT-5.4為46.5%。有趣的是,所有這些結果在質量-成本帕累託前沿上相互關聯,具體偏好取決於期望的質量-成本權衡。

與去年初始前沿模型結果相比,新執行顯示出四個明顯變化:

  1. 最高分整體顯著提升,但基準測試遠未解決。
  2. 各類別增益不均:程式碼與執行、端到端發現類別大幅提升,而資料分析和文獻理解類別僅適度提升。
  3. 各提供商的成本急劇上升,效能最強的Claude配置在絕對成本上最昂貴。
  4. GPT-5.5提高了非Claude前沿模型的上限,尤其在元件任務上,但在最難的端到端工作流上仍顯掙扎。

分類結果顯示領域分化。在當前前沿執行中,GPT-5.5在程式碼與執行和資料分析上領先,並在文獻理解上略微領先最佳Claude執行。Claude Opus 4.7在端到端發現上仍領先,但需要注意的是,端到端發現也由Claude模型評判。

縱觀前沿執行,更好的效能通常伴隨著更高的平均成本——這一模式在Claude家族中最明顯,該家族也產生了總體最佳結果。在Claude執行內部,Opus 4.7比Opus 4.6整體提升2.7個百分點,但成本陡增:每個問題成本增加約62%。大部分成本和得分增長來自端到端發現,其中Opus 4.7領先10.2個百分點(17%),但步驟多54%,成本高65%。部分成本增長可能反映了Opus 4.7的新分詞器,已知對相同文本的token計數會放大1.0-1.35倍。值得注意的是,Opus 4.7在程式碼與執行上略遜於4.6,儘管成本更高,表明其並非純粹改進。

GPT-5.5改變了成本-效能格局。它整體上僅落後Opus 4.7 5.1個百分點,而每個問題成本不到後者一半,並在多個分類評估中以低於最佳Claude執行的成本領先。但其較弱的端到端發現結果表明,強大的編碼、文獻理解和資料分析能力並不會自動轉化為穩健的端到端科學工作。

GPT-5.4和Gemini 3.1 Pro Preview現在總體低於GPT-5.5,但兩者在較低成本下仍具競爭力。資料分析在新前沿執行中相對便宜,最高結果在0.18至0.44美元之間,而得分最高的端到端發現執行則昂貴得多。最近的進步在最難的工作流中最大,成本也是如此。

總體而言,這些指標表明前沿模型在科學任務上進步迅速,但不均衡——且任重道遠。GPT-5.5提高了幾項元件技能的上限,尤其是編碼與執行和資料分析。但最難的基準類別仍然將能解決個別科學子任務的模型與能執行完整研究工作流的智慧體區分開來。

行業採用

AstaBench旨在成為行業標準,我們很高興看到智慧體提交到排行榜的數量增加以及採用範圍的擴大。

英國AISI。Inspect Evals是一個使用英國AISI的Inspect框架構建的開放LLM評估集合。共同建立Inspect Evals的Arcadia Impact正在將AstaBench新增到此集合中,使其更易於安全研究人員和AI開發者使用。Arcadia還使用了AstaBench。Arcadia Impact AI安全負責人Justin Olive表示:“AstaBench是AI評估生態系統的一個極佳補充。標準化和二次分析的需求迫切,這一倡議在這兩個領域都做出了重要貢獻。在英國AISI最先進的Inspect框架上構建這項工作展現了戰略遠見,並反映了Ai2對開放科學和研究影響的真誠承諾。”

General Reasoning。AI研發公司General Reasoning正在構建用於強化學習(RL)的基礎設施,已在他們的OpenReward平臺上實現了一個AstaBench任務(SUPER-Expert)作為環境,該平臺用於大規模託管RL環境。General Reasoning聯合創始人兼CEO Ross Taylor表示:“AstaBench提供了一套令人印象深刻的科學環境,用於測試和訓練複雜的智慧體,我們已努力將其整合到我們的OpenReward平臺中。我們非常感謝Ai2在這一領域的開放研究。”

親自嘗試

如果你想在AstaBench上測試自己的智慧體,所需的一切都在AstaBench和agent-baselines倉庫中。我們接受外部提交到排行榜,並正在努力簡化這一過程。

我們構建AstaBench是因為我們認為,AI是否能進行真正科學研究的問題需要開放、嚴謹的測量,任何人都可以驗證和在此基礎上構建。新的結果和圍繞該套件不斷壯大的社群使我們更接近這一願景。

請親自檢視排行榜。