評估AI科學智慧體的基準測試
Ai2開發的兩個基準測試——ScienceWorld和DiscoveryWorld——揭示了即使是強大的AI科學智慧體在處理人類科學家日常解決的問題時也表現不佳。ScienceWorld測試基本實驗能力,DiscoveryWorld則評估端到端科學發現能力。目前頂級模型在ScienceWorld上得分約80%,在DiscoveryWorld困難任務中僅完成約20%,而人類科學家完成率約70%。
近年來,多個團隊宣稱其AI智慧體能夠設計實驗、編寫程式碼並生成完整研究論文,但這些說法往往缺乏可靠證據。為了系統評估AI科學智慧體的真實能力,艾倫人工智慧研究所(Ai2)開發了兩項基準測試:ScienceWorld(2022年釋出)和DiscoveryWorld(2024年釋出)。
ScienceWorld將智慧體置於一個文本模擬的虛擬世界中,包含廚房、溫室、工作室等十個互聯地點和約200種物體,這些物體遵循真實物理規律:冰加熱會融化,電路因材料不同而通斷,植物在適宜條件下生長。智慧體需要執行30種任務型別,如測量未知物質的沸點、進行孟德爾遺傳雜交等。每項任務有數百種隨機配置,防止智慧體透過死記硬背過關。2022年,當時在科學考試中取得A級的模型在ScienceWorld上得分不足10%,凸顯了“書本知識”與“實踐能力”的顯著差距。到2025年初,頂級模型得分提升至約80%,但仍未完全解決小學四年級的科學實驗。
DiscoveryWorld則更具挑戰性,是首個測試智慧體獨立設計並執行完整科學研究的基準。它設定在虛構的“X星球”上,包含120個任務,涵蓋蛋白質組學、火箭科學、放射性同位素測年、流行病學等八個領域,分三個難度等級,每次執行引數和資料都會隨機變化。智慧體必須提出假設、設計實驗、執行並分析結果,通常需要數百個遊戲內動作。系統不僅評估是否完成任務,還檢查是否遵循科學方法並真正理解發現,以區分洞見與僥倖猜測。當前,在正常和困難難度下,最佳AI系統僅能完成約20%的任務,而擁有高階學位的人類科學家成功率達70%。
Ai2研究員Peter Jansen指出,許多團隊急於釋出科學智慧體,但若去年的最佳系統都無法解決DiscoveryWorld中的簡單問題,很難相信現在有多大進步。這些基準測試旨在區分“知道概念”與“應用概念”,並已免費開放,以幫助將有前景的想法轉化為可驗證的成果。Jansen還表示,隨著模型價效比提升,現在正是測試智慧體長期科學發現能力的最佳時機。未來,科學智慧體有望協助治療疾病、創造新材料,但前提是它們必須透過基礎科學測試。基準測試如同晴雨表,推動AI科學能力朝著可靠的方向發展。