2026-06-17站内改写2 分で読了更新: 2026-06-17

本当の多言語ではない：VLM評価における欠落した次元としてのスクリプト一貫性

新しい研究により、現在の視覚言語モデル（VLM）の多言語評価が複数スクリプト言語のユーザーを見落としていることが明らかになりました。研究者らは、パンジャブ語の3つのアクティブなスクリプト（グルムキー、シャームキー、ローマ字）にわたる厳密に平行な1,000の画像テキストインスタンスからなるベンチマークPuMVR（パンジャブ語マルチモーダル視覚推論）を導入しました。10の最先端VLMを評価した結果、モデルがあるスクリプトでは成功するが別のスクリプトでは失敗するという体系的な「スクリプトギャップ」が明らかになり、精度差は最大16%に達しました。視覚入力は性能を向上させるがギャップを埋めず、スクリプト間のコンテキスト内転送は脆弱です。著者らは、スクリプトに依存しない評価の必須指標として、最低24.8%にまで低下するスクリプト一貫性率（SCR）を提案しています。

ソースarXiv Computer Vision著者: Prabhjot Singh, Bhushan Pawar, Madhu Reddiboina, Rajvee Sheth

Prabhjot Singh氏とその共同研究者らによる最新の研究論文は、現在の視覚言語モデル（VLM）における評価方法に重大な欠陥があることを指摘しています。多くのVLMは多言語対応を謳っていますが、パンジャブ語のように複数の表記体系（スクリプト）を持つ言語を扱う場合、その性能は一貫していません。パンジャブ語はグルムキー文字、シャームキー文字、ローマ字の3つのアクティブなスクリプトで表記され、それぞれが異なる文字セットと字形を持っています。

研究チームは、パンジャブ語マルチモーダル視覚推論（PuMVR）ベンチマークを開発しました。これは、同一の画像とテキスト内容を3つのスクリプトで表現した1,000の厳密に平行なインスタンスから構成されます。彼らはオープンソースおよびクローズドソースを含む10の最先端VLMを評価し、系統的な「スクリプトギャップ」を発見しました。モデルは特定のスクリプトでは視覚的推論タスクを正確に実行できる一方で、別のスクリプトでは同じタスクに失敗し、その精度差は最大16%に達しました。例えば、あるモデルはグルムキー文字で画像に関する質問に正しく答えることができても、シャームキー文字やローマ字では誤答する可能性があります。

研究の重要な発見の一つは、視覚入力が全体的な性能を均一に向上させるものの、スクリプト間のギャップを埋めることはできないという点です。これは、問題が単なる視覚理解能力ではなく、言語とスクリプトの表現に起因することを示唆しています。さらに、スクリプト間のコンテキスト内学習（in-context learning）は非常に脆弱であり、モデルの知識が実質的に特定のスクリプトに固定されていることが明らかになりました。

この問題を定量化するために、著者らはスクリプト一貫性率（Script Consistency Rate, SCR）という新しい指標を提案しました。この指標は、モデルが3つのスクリプトで一貫したパフォーマンスを示す頻度を測定します。PuMVRベンチマークでは、最高のモデルでもSCRはわずか24.8%であり、モデルがスクリプトに依存しない安定した推論をほとんど行えないことを示しています。著者らは、SCRをVLM評価の必須指標として採用し、すべてのユーザーグループに対してAIシステムの公平なアクセスを確保するよう呼びかけています。

この研究は、マクネマー検定を用いてすべてのスクリプトペア間の統計的に有意な差を確認し、データとコードを公開して結果の再現性を担保しています。この研究は、現在の「多言語」VLMが実際にはマルチスクリプトを真にサポートしていないことを強く示唆しており、パンジャブ語、ヒンディー語、ウルドゥー語など複数のスクリプトを使用する言語のユーザーにとって、AIサービスの品質がスクリプトによって異なる可能性があるという重要な問題を提起しています。