AI News HubLIVE
站内改写2 分で読了

OpenAI、LifeSciBenchを公開:750タスクのベンチマークでAIモデルを実際の生命科学研究で評価、専門家作成のルーブリックを使用

OpenAIが発表したLifeSciBenchは、173人のPhD科学者が作成した750タスク、7つのワークフロー、7つの生物学領域にわたって、フロンティアAIが実際の生命科学研究を処理できるかを評価する。19,020のルーブリック基準を使用し、単なる想起ではなく推論と判断を採点する。最良モデルGPT-Rosalindでも通過率は36.1%にとどまり、人工物、正確な出力、運用判断には大きな改善余地がある。

ソースMarkTechPost著者: Michal Sutter

OpenAIは、実際の生命科学研究におけるAIモデルの性能を評価する新しいベンチマーク「LifeSciBench」を公開した。ほとんどの生物学ベンチマークが単純な事実に基づく質問で構成されるのに対し、LifeSciBenchは科学者が不完全な証拠を評価して意思決定を行う現実を反映している。最も強力なモデルでも約3分の1のタスクしか通過できず、ベンチマークは飽和状態には程遠い。

LifeSciBenchは750の専門家作成タスクで構成され、7つのワークフローと7つの生物学領域にわたる。各タスクにはプロンプト、補助資料、採点ルーブリックが付属する。ワークフローには証拠処理・分析、設計・最適化、科学的推論、検証・運用、翻訳、科学コミュニケーションが含まれる。領域はゲノミクス、医薬品化学、臨床・トランスレーショナルサイエンスなど多岐にわたる。タスクは自由回答形式で、約79%が複数の推論または意思決定ステップを必要とし、平均4ステップである。

ベンチマークの構築には173人のPhD科学者が参加し、各タスクは平均6回の自動レビューと2回以上の専門家レビューを経て承認された。さらに453人のレビュアー(97%が博士号保持者)が品質を検証し、全体の一致率は96%を超えた。

ルーブリックシステムが核心であり、ベンチマーク全体で19,020の基準が設定されている。各基準は特定の事実、推論ステップ、数値回答など具体的な特性を評価する。性能は正規化スコア(獲得ポイントの割合)とタスク合格率(70%以上のスコアを獲得したタスクの割合)で測定される。部分点は与えられるが、合格基準は厳格である。

評価は単回設定で行われ、5つのモデルが比較された。GPT-Rosalindが正規化スコア0.576、合格率36.1%でトップだった。GPT-5.5は25.7%、Gemini 3.1 Proは23.6%、GPT-5.4は20.7%、Grok 4.3は13.0%だった。ただし、GPT-Rosalindが386タスクでトップだった一方、Gemini 3.1 Proは214タスクで独自にリードしており、モデルごとに強みが異なる。

モデルは構造化された判断では比較的強いが、設計・最適化・予測ワークフロー(合格率30.7%)や分析(30.3%)は困難だった。人工物の使用が明らかなボトルネックであり、GPT-Rosalindはテキストのみのタスクで45.1%の合格率だったが、人工物を含むタスクでは28.1%に低下した。正確な出力(配列や構造)は最も難しく、モデル間での改善幅は限定的だった。

LifeSciBenchの強みは、広範なカバレッジ、専門家作成のルーブリック、現実的な人工物、独立した検証にある。一方、単回設定のみで反復的な研究を反映していないこと、評価モデルの大半がOpenAI製であること、公開版に制限がある可能性など、限界も存在する。171のタスク(22.8%)はどのモデルも合格できず、261のタスク(34.8%)では最良モデルの合格率が20%未満であり、生命科学研究におけるAIの能力にはまだ大きな余地がある。