OpenAI釋出LifeSciBench:750項任務的基準測試,用專家編寫的評分標準評估AI模型在真實生命科學研究中的表現
OpenAI推出LifeSciBench基準測試,包含750項由173位博士科學家編寫的任務,涵蓋7個工作流程和7個生物學領域。該基準使用19,020條評分標準評估AI的推理和決策能力,而非簡單的事實回憶。最佳模型GPT-Rosalind僅透過36.1%的任務,表明仍有巨大改進空間。
OpenAI近日釋出了LifeSciBench,這是一個全新的基準測試,旨在評估AI模型在真實生命科學研究中的表現。與大多數僅測試事實回憶的生物學基準不同,LifeSciBench要求模型像科學家一樣權衡證據並做出決策。即使是最強大的模型,也僅能透過約三分之一的測試任務,表明該基準遠未飽和。
LifeSciBench包含750項由專家編寫的任務,這些任務覆蓋了七個工作流程和七個生物學領域。每個任務都包含一個提示、支援性人工製品以及一個詳細的評分標準。七個工作流程包括證據處理與分析、設計與最佳化、科學推理、驗證與操作、轉化以及科學通訊。七個領域則從基因組學、藥物化學到臨床與轉化科學。任務設計為自由回答形式,約79%的任務需要多個推理或決策步驟,平均每個任務包含四個步驟。
基準的構建過程嚴謹:173位持有博士學位且具有生物技術或製藥經驗的科學家編寫了這些任務。每項任務平均經過六輪自動審查和至少兩輪專家評審。此外,基準還包含1,062個附加工製品,約53%的任務需要至少一個人工製品,包括序列、圖表、表格、PDF和化學結構。獨立的驗證小組由453位評審員組成,其中97%擁有博士學位,整體一致性超過96%。
LifeSciBench的核心在於其評分系統。基準共包含19,020條評分標準,平均每項任務約25條。每條標準對應一個具體的屬性,如特定事實、推理步驟或數值答案。評分基於標準而非單一的參考答案。效能透過兩個指標衡量:標準化評分(基於獲得的總分比例)和任務透過率(達到70%分數閾值的任務比例)。這種設計允許部分信用,但透過標準嚴格。
OpenAI在單次問答設定中評估了五個模型。模型可以訪問網際網路。結果如下:GPT-Rosalind標準化評分0.576,透過率36.1%;GPT-5.5評分0.519,透過率25.7%;Gemini 3.1 Pro評分0.515,透過率23.6%;GPT-5.4評分0.479,透過率20.7%;Grok 4.3評分0.399,透過率13.0%。GPT-Rosalind在386項任務中領先,但Gemini 3.1 Pro在214項任務中表現最佳,顯示模型各有優勢。
模型在結構化判斷任務上表現較好,GPT-Rosalind在“翻譯”工作流程中平均得分0.712,“科學通訊”得分0.718。但設計、最佳化與預測(透過率30.7%)和分析(透過率30.3%)兩個工作流程最為困難。使用人工製品成為明顯瓶頸:GPT-Rosalind在純文本任務中透過率45.1%,但涉及人工製品時降至28.1%。精確輸出(如序列和結構)的挑戰最大,模型在生成/構建專案上的表現提升有限。
LifeSciBench的優勢在於其廣泛覆蓋、專家編寫的評分標準、真實的人工製品以及獨立的驗證。但侷限包括:僅單次問答而非迭代研究、大部分評估模型由OpenAI提供、公開版本可能受限於安全和許可、750項任務無法覆蓋所有專業領域。總體而言,沒有模型能透過171項任務(22.8%),261項任務的最佳模型透過率低於20%,表明人工智慧在生命科學研究領域仍有巨大發展空間。