AI News HubLIVE
站内改写2 分钟阅读

MIT研究人员教会AI模型解读图表

MIT和MIT-IBM计算研究实验室的研究人员开发了ChartNet数据集,包含超过一百万张多样化图表,用于训练视觉语言模型。该数据集使小型开源模型在图表理解任务上超越大型商业模型,有望帮助预算有限的小型企业更有效地利用AI。

来源MIT News AI作者: Adam Zewe | MIT News

在快节奏的全球市场中,企业常部署生成式AI模型来总结和解读图表,以加速决策。然而,即便是最先进的视觉语言模型(VLM)也常难以准确处理涉及视觉、数字和语言理解的复杂任务。为填补这一空白,MIT与MIT-IBM计算研究实验室的研究人员开发了一套名为ChartNet的多功能资源,专门用于训练VLM高效解读图表。

ChartNet数据集采用新颖的数据生成方法构建,包含超过一百万张多样化图表,并编码了每张图表的视觉、语言和数值组成部分。研究人员用该数据集训练了一系列开源VLM,发现许多小型模型在数据提取和图表总结等任务上显著优于规模大几个数量级的商业模型。例如,在图表重建、数据提取、总结和问答测试中,ChartNet提升了所有模型的准确率。

该研究的领导者、MIT电子工程与计算机科学研究生Jovana Kondic表示:“ChartNet旨在成为图表理解的一站式资源,覆盖AI模型和训练人员可能需要的所有内容。我们希望这项工作能激励研究人员用更小的模型实现最先进的性能,而无需无限计算资源。”

ChartNet的构建采用了两步合成数据生成流程:首先,自动系统将现有图表图像转换为代码;然后,系统迭代修改代码以改变图表类型、数据值、主题、颜色等多个方面。此外,数据集还包含人类专家标注的图表数据点,提供额外的有效性和多样性保证。

研究团队计划未来继续扩展ChartNet,加入更复杂的数据,并吸收研究社区的反馈。这项研究部分由MIT-IBM计算研究实验室资助,相关论文将在IEEE计算机视觉与模式识别会议上发表。

ChartNet的诞生源于一个关键瓶颈:高质量训练数据的缺乏。尽管生成式AI在自然语言处理和自然图像推理方面取得了巨大进步,但在解读图表这类复杂多模态数据上仍进展缓慢。Kondic指出:“视觉语言模型不像人脑,它可能需要训练中看到数千个示例才能可靠地识别出折线图。”

为解决这一问题,研究人员采用合成数据生成技术。ChartNet数据集包含超过一百万张高质量图表图像,以及每张图表的生成代码、文本描述和包含数值信息的表格。此外,每个数据点还包括问答对,用以训练模型正确回答关于图表的问题。Kondic说:“这些额外的数据模式引导模型连接和对齐图表图像编码的不同信息。”

为了构建ChartNet,研究人员创建了一个两步合成数据生成流水线。首先,自动化系统将任何预先存在的图表图像集转换为代码。然后,系统迭代增强该代码,改变每个图表的各个方面,如图表类型、数据值、主题、颜色等。“我们可以从一个图表作为种子开始,然后生成数百个变体。这就是我们能够构建包含超过一百万张多样化图像数据集的方法,”Kondic解释道。

他们还加入了自动化质量检查流程,以确保合成数据的高质量。该流程验证代码是否可执行,以及渲染的图表图像是否准确和清晰。“我们不仅仅想要生成多样化的样本,还希望信息以有意义的方式呈现,”她说。

ChartNet还包括由人类专家标注的图表数据点选择,这提供了额外类型的图表和支持数据,并带有有效性保证。Joshi补充说,从业者可以使用这些标注数据对现有VLM进行微调,进一步提升特定应用的性能。

研究人员通过训练IBM的Granite Vision系列模型以及其他各种大小的开源模型,并在各种图表解读任务上评估它们来测试ChartNet。该数据集提高了所有模型在图表重建、图表数据提取、图表总结和图表问答中的准确性。通过ChartNet,小型开源模型始终优于更大的商业模型。

“很多以前的训练数据集只专注于回答关于图表的简单问题。我们试图通过ChartNet超越这一点,生成支持稳健图表理解所有方面的数据,”Kondic说。未来,研究人员计划通过加入更复杂的数据来继续扩展ChartNet,并希望吸收研究社区的反馈。