2026-04-13 16:00 UTC+8站内改写2 分钟阅读更新: 2026-06-27 08:25 UTC+8

评估AI科学智能体的基准测试

Ai2开发的两个基准测试——ScienceWorld和DiscoveryWorld——揭示了即使是强大的AI科学智能体在处理人类科学家日常解决的问题时也表现不佳。ScienceWorld测试基本实验能力，DiscoveryWorld则评估端到端科学发现能力。目前顶级模型在ScienceWorld上得分约80%，在DiscoveryWorld困难任务中仅完成约20%，而人类科学家完成率约70%。

来源Ai2 Blog

近年来，多个团队宣称其AI智能体能够设计实验、编写代码并生成完整研究论文，但这些说法往往缺乏可靠证据。为了系统评估AI科学智能体的真实能力，艾伦人工智能研究所（Ai2）开发了两项基准测试：ScienceWorld（2022年发布）和DiscoveryWorld（2024年发布）。

ScienceWorld将智能体置于一个文本模拟的虚拟世界中，包含厨房、温室、工作室等十个互联地点和约200种物体，这些物体遵循真实物理规律：冰加热会融化，电路因材料不同而通断，植物在适宜条件下生长。智能体需要执行30种任务类型，如测量未知物质的沸点、进行孟德尔遗传杂交等。每项任务有数百种随机配置，防止智能体通过死记硬背过关。2022年，当时在科学考试中取得A级的模型在ScienceWorld上得分不足10%，凸显了“书本知识”与“实践能力”的显著差距。到2025年初，顶级模型得分提升至约80%，但仍未完全解决小学四年级的科学实验。

DiscoveryWorld则更具挑战性，是首个测试智能体独立设计并执行完整科学研究的基准。它设定在虚构的“X星球”上，包含120个任务，涵盖蛋白质组学、火箭科学、放射性同位素测年、流行病学等八个领域，分三个难度等级，每次运行参数和数据都会随机变化。智能体必须提出假设、设计实验、执行并分析结果，通常需要数百个游戏内动作。系统不仅评估是否完成任务，还检查是否遵循科学方法并真正理解发现，以区分洞见与侥幸猜测。当前，在正常和困难难度下，最佳AI系统仅能完成约20%的任务，而拥有高级学位的人类科学家成功率达70%。

Ai2研究员Peter Jansen指出，许多团队急于发布科学智能体，但若去年的最佳系统都无法解决DiscoveryWorld中的简单问题，很难相信现在有多大进步。这些基准测试旨在区分“知道概念”与“应用概念”，并已免费开放，以帮助将有前景的想法转化为可验证的成果。Jansen还表示，随着模型性价比提升，现在正是测试智能体长期科学发现能力的最佳时机。未来，科学智能体有望协助治疗疾病、创造新材料，但前提是它们必须通过基础科学测试。基准测试如同晴雨表，推动AI科学能力朝着可靠的方向发展。