2026-06-30 12:00 UTC+8站内改写2 分钟阅读更新: 2026-06-30 15:59 UTC+8

AI能绘制科学图表吗？用于评估文本转图像和多模态模型科学图表生成能力的基准

现有图像生成基准无法评估科学图表的可用性。SciDraw-Bench提出了32个任务，涵盖8种图表类型和10个学科，并采用四维评估协议。实验表明，领域专用系统SciDraw AI在所有维度上均优于通用模型，文本保真度仍是最大挑战。

近年来，随着文本到图像和多模态生成模型的飞速发展，科学家们越来越多地尝试利用人工智能来生成科学图表，例如机理图、实验设计示意图、概念框架图以及图形摘要。这些图表在学术论文、演示和教学中扮演着关键角色。然而，现有的图像生成基准测试，如GenEval、T2I-CompBench和DPG-Bench，主要聚焦于自然图像的质量，评估的是构图、物体计数或逼真度，完全没有衡量科学图表的特定要求，例如正确且可读的文字标签、实体及其关系的准确描绘、连贯的图表结构以及符合学科绘图惯例。这种评估的空白阻碍了AI在该专业领域的应用和进步。

为了填补这一空白，来自研究机构的Davie Chen等人提出了SciDraw-Bench，一个专门用于评估科学图表生成能力的基准。该基准包含了32个精心设计的结构化任务，覆盖了八种不同的图表类型（包括流程图、示意图、框架图、机制图等）和十个学科领域（如生物学、化学、计算机科学、物理学等）。每个任务都配有一个自然语言提示和一个机器可检查的规范，规范中详细列出了所需的标签、关系、组件、绘图惯例以及负面约束条件。这意味着评估不仅依赖于主观判断，还可以通过自动化工具进行客观验证。

评估方案设计了四个关键维度：文本保真度（通过OCR技术计算标签的召回率和字符错误率）、语义正确性（利用视觉语言模型根据规范判断图表内容是否正确）、结构质量（评估图表的整体布局和逻辑连贯性）以及惯例遵循（检查图表是否符合具体学科的标准绘制方式）。此外，研究团队还提出了一个元评估协议，用于验证评估本身的有效性，并进行了初步的评分者间可靠性分析，人工评分的验证工作仍在进行中。

在实验中，研究团队评估了一个专门针对科学图表设计的系统——SciDraw AI，并将其与多个代表性的通用文本到图像模型进行了比较。在全部八种图表类型的初步测试中，SciDraw AI在每个评估维度和图表类型上都大幅超越了通用基线模型，特别是在语义正确性和惯例遵循方面，优势最为显著。然而，所有系统在文本保真度维度上都面临巨大挑战，这成为当前技术的主要瓶颈。

这项研究的重要性在于，它首次为评估AI生成科学图表的能力提供了一个全面、结构化的基准，有望推动该领域的标准化和进步。论文已于2026年6月24日提交至arXiv，并计划在未来拓展代码到图表的生成基线，同时将进一步优化文本保真度。对于从事AI研究和科学可视化的学者和工程师来说，这项工作提供了宝贵的资源和方向。