AI News HubLIVE
站内改写2 分钟阅读

AI能绘制科学图表吗?用于评估文本转图像和多模态模型科学图表生成能力的基准

现有图像生成基准无法评估科学图表的可用性。SciDraw-Bench提出了32个任务,涵盖8种图表类型和10个学科,并采用四维评估协议。实验表明,领域专用系统SciDraw AI在所有维度上均优于通用模型,文本保真度仍是最大挑战。

来源arXiv Machine Learning作者: Davie Chen

近年来,随着文本到图像和多模态生成模型的飞速发展,科学家们越来越多地尝试利用人工智能来生成科学图表,例如机理图、实验设计示意图、概念框架图以及图形摘要。这些图表在学术论文、演示和教学中扮演着关键角色。然而,现有的图像生成基准测试,如GenEval、T2I-CompBench和DPG-Bench,主要聚焦于自然图像的质量,评估的是构图、物体计数或逼真度,完全没有衡量科学图表的特定要求,例如正确且可读的文字标签、实体及其关系的准确描绘、连贯的图表结构以及符合学科绘图惯例。这种评估的空白阻碍了AI在该专业领域的应用和进步。

为了填补这一空白,来自研究机构的Davie Chen等人提出了SciDraw-Bench,一个专门用于评估科学图表生成能力的基准。该基准包含了32个精心设计的结构化任务,覆盖了八种不同的图表类型(包括流程图、示意图、框架图、机制图等)和十个学科领域(如生物学、化学、计算机科学、物理学等)。每个任务都配有一个自然语言提示和一个机器可检查的规范,规范中详细列出了所需的标签、关系、组件、绘图惯例以及负面约束条件。这意味着评估不仅依赖于主观判断,还可以通过自动化工具进行客观验证。

评估方案设计了四个关键维度:文本保真度(通过OCR技术计算标签的召回率和字符错误率)、语义正确性(利用视觉语言模型根据规范判断图表内容是否正确)、结构质量(评估图表的整体布局和逻辑连贯性)以及惯例遵循(检查图表是否符合具体学科的标准绘制方式)。此外,研究团队还提出了一个元评估协议,用于验证评估本身的有效性,并进行了初步的评分者间可靠性分析,人工评分的验证工作仍在进行中。

在实验中,研究团队评估了一个专门针对科学图表设计的系统——SciDraw AI,并将其与多个代表性的通用文本到图像模型进行了比较。在全部八种图表类型的初步测试中,SciDraw AI在每个评估维度和图表类型上都大幅超越了通用基线模型,特别是在语义正确性和惯例遵循方面,优势最为显著。然而,所有系统在文本保真度维度上都面临巨大挑战,这成为当前技术的主要瓶颈。

这项研究的重要性在于,它首次为评估AI生成科学图表的能力提供了一个全面、结构化的基准,有望推动该领域的标准化和进步。论文已于2026年6月24日提交至arXiv,并计划在未来拓展代码到图表的生成基线,同时将进一步优化文本保真度。对于从事AI研究和科学可视化的学者和工程师来说,这项工作提供了宝贵的资源和方向。