评估AI科学智能体的基准测试
Ai2开发的两个基准测试——ScienceWorld和DiscoveryWorld——揭示了即使是强大的AI科学智能体在处理人类科学家日常解决的问题时也表现不佳。ScienceWorld测试基本实验能力,DiscoveryWorld则评估端到端科学发现能力。目前顶级模型在ScienceWorld上得分约80%,在DiscoveryWorld困难任务中仅完成约20%,而人类科学家完成率约70%。
近年来,多个团队宣称其AI智能体能够设计实验、编写代码并生成完整研究论文,但这些说法往往缺乏可靠证据。为了系统评估AI科学智能体的真实能力,艾伦人工智能研究所(Ai2)开发了两项基准测试:ScienceWorld(2022年发布)和DiscoveryWorld(2024年发布)。
ScienceWorld将智能体置于一个文本模拟的虚拟世界中,包含厨房、温室、工作室等十个互联地点和约200种物体,这些物体遵循真实物理规律:冰加热会融化,电路因材料不同而通断,植物在适宜条件下生长。智能体需要执行30种任务类型,如测量未知物质的沸点、进行孟德尔遗传杂交等。每项任务有数百种随机配置,防止智能体通过死记硬背过关。2022年,当时在科学考试中取得A级的模型在ScienceWorld上得分不足10%,凸显了“书本知识”与“实践能力”的显著差距。到2025年初,顶级模型得分提升至约80%,但仍未完全解决小学四年级的科学实验。
DiscoveryWorld则更具挑战性,是首个测试智能体独立设计并执行完整科学研究的基准。它设定在虚构的“X星球”上,包含120个任务,涵盖蛋白质组学、火箭科学、放射性同位素测年、流行病学等八个领域,分三个难度等级,每次运行参数和数据都会随机变化。智能体必须提出假设、设计实验、执行并分析结果,通常需要数百个游戏内动作。系统不仅评估是否完成任务,还检查是否遵循科学方法并真正理解发现,以区分洞见与侥幸猜测。当前,在正常和困难难度下,最佳AI系统仅能完成约20%的任务,而拥有高级学位的人类科学家成功率达70%。
Ai2研究员Peter Jansen指出,许多团队急于发布科学智能体,但若去年的最佳系统都无法解决DiscoveryWorld中的简单问题,很难相信现在有多大进步。这些基准测试旨在区分“知道概念”与“应用概念”,并已免费开放,以帮助将有前景的想法转化为可验证的成果。Jansen还表示,随着模型性价比提升,现在正是测试智能体长期科学发现能力的最佳时机。未来,科学智能体有望协助治疗疾病、创造新材料,但前提是它们必须通过基础科学测试。基准测试如同晴雨表,推动AI科学能力朝着可靠的方向发展。