2026-06-17站内改写2 分钟阅读更新: 2026-06-17

并非真正的多语言：脚本一致性——视觉语言模型评估中缺失的维度

新研究指出，当前视觉语言模型（VLM）的多语言评估忽略了多脚本语言用户。研究团队引入旁遮普语多模态视觉推理（PuMVR）基准，包含1000个严格平行的图像-文本实例，覆盖旁遮普语的三种活跃脚本：古尔穆基文、沙穆基文和罗马文。评估10个先进VLM后发现显著的“脚本差距”，模型在一种脚本中成功解决视觉任务，但在另一种脚本中失败，准确率差异高达16%。视觉输入虽能整体提升性能，但无法消除字形差距。跨脚本上下文迁移极其脆弱，暴露了脚本锁定的知识表示。作者提出脚本一致性率（SCR），最低仅24.8%，呼吁将其作为强制评估指标，以确保AI的公平访问。

来源arXiv Computer Vision作者: Prabhjot Singh, Bhushan Pawar, Madhu Reddiboina, Rajvee Sheth

一篇由Prabhjot Singh及其同事发表的最新研究论文揭示了当前视觉语言模型（VLM）在跨脚本评估中的一个关键盲点。尽管这些模型声称支持多语言，但在处理像旁遮普语这样使用多种书写系统的语言时，其表现远非一致。旁遮普语同时使用古尔穆基文（Gurmukhi）、沙穆基文（Shahmukhi）和罗马文（Roman）三种活跃脚本，这为评估VLM的真正多语言能力提供了独特的测试场景。

研究团队创建了旁遮普语多模态视觉推理（PuMVR）基准，这是一个包含1000个严格平行的图像-文本对的数据集，每个实例都以三种脚本呈现相同内容。他们评估了10款最先进的VLM，包括开源和闭源模型，结果发现了系统性的“脚本差距”。具体来说，模型在一种脚本下能够准确回答关于图像的问题，但面对完全相同的任务，只是换成另一种脚本时，准确率却大幅下降，最大差异达到16个百分点。例如，一个模型可能对古尔穆基文的问题回答正确，但对沙穆基文或罗马文的同一问题却给出错误答案。

更有意思的是，研究还发现视觉输入虽然能总体提升模型的性能，但并不能缩小不同脚本之间的性能差距。这意味着问题并不单纯在于视觉理解能力，而在于语言和脚本表征层面。此外，模型在跨脚本的上下文学习（in-context learning）中表现极其不稳定，表明其知识实际上被锁定在了特定脚本中，无法灵活迁移。

为了量化这一问题，作者提出了脚本一致性率（Script Consistency Rate，SCR），该指标衡量模型在三种脚本上表现一致的比例。在PuMVR基准上，最优模型的SCR也仅达到24.8%，说明模型在大部分情况下无法做到脚本无关的稳定推理。作者认为，SCR应成为评估VLM时的一项强制性指标，以确保AI系统对所有用户群体公平，无论他们使用哪种书写系统。

该研究还通过McNemar统计检验确认了所有脚本对之间的性能差异具有统计显著性，并公开了数据和代码以便复现。这一工作对当前“多语言”VLM的实际能力提出了严峻质疑，并强调了在多语言评估中纳入脚本维度的必要性。对于使用多种脚本的语言（如旁遮普语、印地语、乌尔都语等）的用户而言，AI服务质量的差异可能因此变得不可忽视。