OpenAI发布LifeSciBench:750项任务的基准测试,用专家编写的评分标准评估AI模型在真实生命科学研究中的表现
OpenAI推出LifeSciBench基准测试,包含750项由173位博士科学家编写的任务,涵盖7个工作流程和7个生物学领域。该基准使用19,020条评分标准评估AI的推理和决策能力,而非简单的事实回忆。最佳模型GPT-Rosalind仅通过36.1%的任务,表明仍有巨大改进空间。
OpenAI近日发布了LifeSciBench,这是一个全新的基准测试,旨在评估AI模型在真实生命科学研究中的表现。与大多数仅测试事实回忆的生物学基准不同,LifeSciBench要求模型像科学家一样权衡证据并做出决策。即使是最强大的模型,也仅能通过约三分之一的测试任务,表明该基准远未饱和。
LifeSciBench包含750项由专家编写的任务,这些任务覆盖了七个工作流程和七个生物学领域。每个任务都包含一个提示、支持性人工制品以及一个详细的评分标准。七个工作流程包括证据处理与分析、设计与优化、科学推理、验证与操作、转化以及科学通信。七个领域则从基因组学、药物化学到临床与转化科学。任务设计为自由回答形式,约79%的任务需要多个推理或决策步骤,平均每个任务包含四个步骤。
基准的构建过程严谨:173位持有博士学位且具有生物技术或制药经验的科学家编写了这些任务。每项任务平均经过六轮自动审查和至少两轮专家评审。此外,基准还包含1,062个附加工制品,约53%的任务需要至少一个人工制品,包括序列、图表、表格、PDF和化学结构。独立的验证小组由453位评审员组成,其中97%拥有博士学位,整体一致性超过96%。
LifeSciBench的核心在于其评分系统。基准共包含19,020条评分标准,平均每项任务约25条。每条标准对应一个具体的属性,如特定事实、推理步骤或数值答案。评分基于标准而非单一的参考答案。性能通过两个指标衡量:标准化评分(基于获得的总分比例)和任务通过率(达到70%分数阈值的任务比例)。这种设计允许部分信用,但通过标准严格。
OpenAI在单次问答设置中评估了五个模型。模型可以访问互联网。结果如下:GPT-Rosalind标准化评分0.576,通过率36.1%;GPT-5.5评分0.519,通过率25.7%;Gemini 3.1 Pro评分0.515,通过率23.6%;GPT-5.4评分0.479,通过率20.7%;Grok 4.3评分0.399,通过率13.0%。GPT-Rosalind在386项任务中领先,但Gemini 3.1 Pro在214项任务中表现最佳,显示模型各有优势。
模型在结构化判断任务上表现较好,GPT-Rosalind在“翻译”工作流程中平均得分0.712,“科学通信”得分0.718。但设计、优化与预测(通过率30.7%)和分析(通过率30.3%)两个工作流程最为困难。使用人工制品成为明显瓶颈:GPT-Rosalind在纯文本任务中通过率45.1%,但涉及人工制品时降至28.1%。精确输出(如序列和结构)的挑战最大,模型在生成/构建项目上的表现提升有限。
LifeSciBench的优势在于其广泛覆盖、专家编写的评分标准、真实的人工制品以及独立的验证。但局限包括:仅单次问答而非迭代研究、大部分评估模型由OpenAI提供、公开版本可能受限于安全和许可、750项任务无法覆盖所有专业领域。总体而言,没有模型能通过171项任务(22.8%),261项任务的最佳模型通过率低于20%,表明人工智能在生命科学研究领域仍有巨大发展空间。