2026-06-30 12:00 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-30 15:59 UTC+8

AI能繪製科學圖表嗎？用於評估文本轉影像和多模態模型科學圖表生成能力的基準

現有影像生成基準無法評估科學圖表的可用性。SciDraw-Bench提出了32個任務，涵蓋8種圖表型別和10個學科，並採用四維評估協議。實驗表明，領域專用系統SciDraw AI在所有維度上均優於通用模型，文本保真度仍是最大挑戰。

近年來，隨著文本到影像和多模態生成模型的飛速發展，科學家們越來越多地嘗試利用人工智慧來生成科學圖表，例如機理圖、實驗設計示意圖、概念框架圖以及圖形摘要。這些圖表在學術論文、演示和教學中扮演著關鍵角色。然而，現有的影像生成基準測試，如GenEval、T2I-CompBench和DPG-Bench，主要聚焦於自然影像的質量，評估的是構圖、物體計數或逼真度，完全沒有衡量科學圖表的特定要求，例如正確且可讀的文字標籤、實體及其關係的準確描繪、連貫的圖表結構以及符合學科繪圖慣例。這種評估的空白阻礙了AI在該專業領域的應用和進步。

為了填補這一空白，來自研究機構的Davie Chen等人提出了SciDraw-Bench，一個專門用於評估科學圖表生成能力的基準。該基準包含了32個精心設計的結構化任務，覆蓋了八種不同的圖表型別（包括流程圖、示意圖、框架圖、機制圖等）和十個學科領域（如生物學、化學、電腦科學、物理學等）。每個任務都配有一個自然語言提示和一個機器可檢查的規範，規範中詳細列出了所需的標籤、關係、元件、繪圖慣例以及負面約束條件。這意味著評估不僅依賴於主觀判斷，還可以透過自動化工具進行客觀驗證。

評估方案設計了四個關鍵維度：文本保真度（透過OCR技術計算標籤的召回率和字元錯誤率）、語義正確性（利用視覺語言模型根據規範判斷圖表內容是否正確）、結構質量（評估圖表的整體佈局和邏輯連貫性）以及慣例遵循（檢查圖表是否符合具體學科的標準繪製方式）。此外，研究團隊還提出了一個元評估協議，用於驗證評估本身的有效性，並進行了初步的評分者間可靠性分析，人工評分的驗證工作仍在進行中。

在實驗中，研究團隊評估了一個專門針對科學圖表設計的系統——SciDraw AI，並將其與多個代表性的通用文本到影像模型進行了比較。在全部八種圖表型別的初步測試中，SciDraw AI在每個評估維度和圖表型別上都大幅超越了通用基線模型，特別是在語義正確性和慣例遵循方面，優勢最為顯著。然而，所有系統在文本保真度維度上都面臨巨大挑戰，這成為當前技術的主要瓶頸。

這項研究的重要性在於，它首次為評估AI生成科學圖表的能力提供了一個全面、結構化的基準，有望推動該領域的標準化和進步。論文已於2026年6月24日提交至arXiv，並計劃在未來拓展程式碼到圖表的生成基線，同時將進一步最佳化文本保真度。對於從事AI研究和科學視覺化的學者和工程師來說，這項工作提供了寶貴的資源和方向。