2026-04-13 16:00 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-27 08:25 UTC+8

評估AI科學智慧體的基準測試

Ai2開發的兩個基準測試——ScienceWorld和DiscoveryWorld——揭示了即使是強大的AI科學智慧體在處理人類科學家日常解決的問題時也表現不佳。ScienceWorld測試基本實驗能力，DiscoveryWorld則評估端到端科學發現能力。目前頂級模型在ScienceWorld上得分約80%，在DiscoveryWorld困難任務中僅完成約20%，而人類科學家完成率約70%。

來源Ai2 Blog

近年來，多個團隊宣稱其AI智慧體能夠設計實驗、編寫程式碼並生成完整研究論文，但這些說法往往缺乏可靠證據。為了系統評估AI科學智慧體的真實能力，艾倫人工智慧研究所（Ai2）開發了兩項基準測試：ScienceWorld（2022年釋出）和DiscoveryWorld（2024年釋出）。

ScienceWorld將智慧體置於一個文本模擬的虛擬世界中，包含廚房、溫室、工作室等十個互聯地點和約200種物體，這些物體遵循真實物理規律：冰加熱會融化，電路因材料不同而通斷，植物在適宜條件下生長。智慧體需要執行30種任務型別，如測量未知物質的沸點、進行孟德爾遺傳雜交等。每項任務有數百種隨機配置，防止智慧體透過死記硬背過關。2022年，當時在科學考試中取得A級的模型在ScienceWorld上得分不足10%，凸顯了“書本知識”與“實踐能力”的顯著差距。到2025年初，頂級模型得分提升至約80%，但仍未完全解決小學四年級的科學實驗。

DiscoveryWorld則更具挑戰性，是首個測試智慧體獨立設計並執行完整科學研究的基準。它設定在虛構的“X星球”上，包含120個任務，涵蓋蛋白質組學、火箭科學、放射性同位素測年、流行病學等八個領域，分三個難度等級，每次執行引數和資料都會隨機變化。智慧體必須提出假設、設計實驗、執行並分析結果，通常需要數百個遊戲內動作。系統不僅評估是否完成任務，還檢查是否遵循科學方法並真正理解發現，以區分洞見與僥倖猜測。當前，在正常和困難難度下，最佳AI系統僅能完成約20%的任務，而擁有高階學位的人類科學家成功率達70%。

Ai2研究員Peter Jansen指出，許多團隊急於釋出科學智慧體，但若去年的最佳系統都無法解決DiscoveryWorld中的簡單問題，很難相信現在有多大進步。這些基準測試旨在區分“知道概念”與“應用概念”，並已免費開放，以幫助將有前景的想法轉化為可驗證的成果。Jansen還表示，隨著模型價效比提升，現在正是測試智慧體長期科學發現能力的最佳時機。未來，科學智慧體有望協助治療疾病、創造新材料，但前提是它們必須透過基礎科學測試。基準測試如同晴雨表，推動AI科學能力朝著可靠的方向發展。