AI News HubLIVE
站内改写2 分钟阅读

并非真正的多语言:脚本一致性——视觉语言模型评估中缺失的维度

新研究指出,当前视觉语言模型(VLM)的多语言评估忽略了多脚本语言用户。研究团队引入旁遮普语多模态视觉推理(PuMVR)基准,包含1000个严格平行的图像-文本实例,覆盖旁遮普语的三种活跃脚本:古尔穆基文、沙穆基文和罗马文。评估10个先进VLM后发现显著的“脚本差距”,模型在一种脚本中成功解决视觉任务,但在另一种脚本中失败,准确率差异高达16%。视觉输入虽能整体提升性能,但无法消除字形差距。跨脚本上下文迁移极其脆弱,暴露了脚本锁定的知识表示。作者提出脚本一致性率(SCR),最低仅24.8%,呼吁将其作为强制评估指标,以确保AI的公平访问。

来源arXiv Computer Vision作者: Prabhjot Singh, Bhushan Pawar, Madhu Reddiboina, Rajvee Sheth

一篇由Prabhjot Singh及其同事发表的最新研究论文揭示了当前视觉语言模型(VLM)在跨脚本评估中的一个关键盲点。尽管这些模型声称支持多语言,但在处理像旁遮普语这样使用多种书写系统的语言时,其表现远非一致。旁遮普语同时使用古尔穆基文(Gurmukhi)、沙穆基文(Shahmukhi)和罗马文(Roman)三种活跃脚本,这为评估VLM的真正多语言能力提供了独特的测试场景。

研究团队创建了旁遮普语多模态视觉推理(PuMVR)基准,这是一个包含1000个严格平行的图像-文本对的数据集,每个实例都以三种脚本呈现相同内容。他们评估了10款最先进的VLM,包括开源和闭源模型,结果发现了系统性的“脚本差距”。具体来说,模型在一种脚本下能够准确回答关于图像的问题,但面对完全相同的任务,只是换成另一种脚本时,准确率却大幅下降,最大差异达到16个百分点。例如,一个模型可能对古尔穆基文的问题回答正确,但对沙穆基文或罗马文的同一问题却给出错误答案。

更有意思的是,研究还发现视觉输入虽然能总体提升模型的性能,但并不能缩小不同脚本之间的性能差距。这意味着问题并不单纯在于视觉理解能力,而在于语言和脚本表征层面。此外,模型在跨脚本的上下文学习(in-context learning)中表现极其不稳定,表明其知识实际上被锁定在了特定脚本中,无法灵活迁移。

为了量化这一问题,作者提出了脚本一致性率(Script Consistency Rate,SCR),该指标衡量模型在三种脚本上表现一致的比例。在PuMVR基准上,最优模型的SCR也仅达到24.8%,说明模型在大部分情况下无法做到脚本无关的稳定推理。作者认为,SCR应成为评估VLM时的一项强制性指标,以确保AI系统对所有用户群体公平,无论他们使用哪种书写系统。

该研究还通过McNemar统计检验确认了所有脚本对之间的性能差异具有统计显著性,并公开了数据和代码以便复现。这一工作对当前“多语言”VLM的实际能力提出了严峻质疑,并强调了在多语言评估中纳入脚本维度的必要性。对于使用多种脚本的语言(如旁遮普语、印地语、乌尔都语等)的用户而言,AI服务质量的差异可能因此变得不可忽视。