AI能繪製科學圖表嗎?用於評估文本轉影像和多模態模型科學圖表生成能力的基準
現有影像生成基準無法評估科學圖表的可用性。SciDraw-Bench提出了32個任務,涵蓋8種圖表型別和10個學科,並採用四維評估協議。實驗表明,領域專用系統SciDraw AI在所有維度上均優於通用模型,文本保真度仍是最大挑戰。
近年來,隨著文本到影像和多模態生成模型的飛速發展,科學家們越來越多地嘗試利用人工智慧來生成科學圖表,例如機理圖、實驗設計示意圖、概念框架圖以及圖形摘要。這些圖表在學術論文、演示和教學中扮演著關鍵角色。然而,現有的影像生成基準測試,如GenEval、T2I-CompBench和DPG-Bench,主要聚焦於自然影像的質量,評估的是構圖、物體計數或逼真度,完全沒有衡量科學圖表的特定要求,例如正確且可讀的文字標籤、實體及其關係的準確描繪、連貫的圖表結構以及符合學科繪圖慣例。這種評估的空白阻礙了AI在該專業領域的應用和進步。
為了填補這一空白,來自研究機構的Davie Chen等人提出了SciDraw-Bench,一個專門用於評估科學圖表生成能力的基準。該基準包含了32個精心設計的結構化任務,覆蓋了八種不同的圖表型別(包括流程圖、示意圖、框架圖、機制圖等)和十個學科領域(如生物學、化學、電腦科學、物理學等)。每個任務都配有一個自然語言提示和一個機器可檢查的規範,規範中詳細列出了所需的標籤、關係、元件、繪圖慣例以及負面約束條件。這意味著評估不僅依賴於主觀判斷,還可以透過自動化工具進行客觀驗證。
評估方案設計了四個關鍵維度:文本保真度(透過OCR技術計算標籤的召回率和字元錯誤率)、語義正確性(利用視覺語言模型根據規範判斷圖表內容是否正確)、結構質量(評估圖表的整體佈局和邏輯連貫性)以及慣例遵循(檢查圖表是否符合具體學科的標準繪製方式)。此外,研究團隊還提出了一個元評估協議,用於驗證評估本身的有效性,並進行了初步的評分者間可靠性分析,人工評分的驗證工作仍在進行中。
在實驗中,研究團隊評估了一個專門針對科學圖表設計的系統——SciDraw AI,並將其與多個代表性的通用文本到影像模型進行了比較。在全部八種圖表型別的初步測試中,SciDraw AI在每個評估維度和圖表型別上都大幅超越了通用基線模型,特別是在語義正確性和慣例遵循方面,優勢最為顯著。然而,所有系統在文本保真度維度上都面臨巨大挑戰,這成為當前技術的主要瓶頸。
這項研究的重要性在於,它首次為評估AI生成科學圖表的能力提供了一個全面、結構化的基準,有望推動該領域的標準化和進步。論文已於2026年6月24日提交至arXiv,並計劃在未來拓展程式碼到圖表的生成基線,同時將進一步最佳化文本保真度。對於從事AI研究和科學視覺化的學者和工程師來說,這項工作提供了寶貴的資源和方向。