2026-06-17站内改写2 分鐘閱讀更新: 2026-06-17

並非真正的多語言：腳本一致性——視覺語言模型評估中缺失的維度

新研究指出，當前視覺語言模型（VLM）的多語言評估忽略了多腳本語言用户。研究團隊引入旁遮普語多模態視覺推理（PuMVR）基準，包含1000個嚴格平行的圖像-文本實例，覆蓋旁遮普語的三種活躍腳本：古爾穆基文、沙穆基文和羅馬文。評估10個先進VLM後發現顯著的“腳本差距”，模型在一種腳本中成功解決視覺任務，但在另一種腳本中失敗，準確率差異高達16%。視覺輸入雖能整體提升性能，但無法消除字形差距。跨腳本上下文遷移極其脆弱，暴露了腳本鎖定的知識表示。作者提出腳本一致性率（SCR），最低僅24.8%，呼籲將其作為強制評估指標，以確保AI的公平訪問。

來源arXiv Computer Vision作者: Prabhjot Singh, Bhushan Pawar, Madhu Reddiboina, Rajvee Sheth

一篇由Prabhjot Singh及其同事發表的最新研究論文揭示了當前視覺語言模型（VLM）在跨腳本評估中的一個關鍵盲點。儘管這些模型聲稱支持多語言，但在處理像旁遮普語這樣使用多種書寫系統的語言時，其表現遠非一致。旁遮普語同時使用古爾穆基文（Gurmukhi）、沙穆基文（Shahmukhi）和羅馬文（Roman）三種活躍腳本，這為評估VLM的真正多語言能力提供了獨特的測試場景。

研究團隊創建了旁遮普語多模態視覺推理（PuMVR）基準，這是一個包含1000個嚴格平行的圖像-文本對的數據集，每個實例都以三種腳本呈現相同內容。他們評估了10款最先進的VLM，包括開源和閉源模型，結果發現了系統性的“腳本差距”。具體來説，模型在一種腳本下能夠準確回答關於圖像的問題，但面對完全相同的任務，只是換成另一種腳本時，準確率卻大幅下降，最大差異達到16個百分點。例如，一個模型可能對古爾穆基文的問題回答正確，但對沙穆基文或羅馬文的同一問題卻給出錯誤答案。

更有意思的是，研究還發現視覺輸入雖然能總體提升模型的性能，但並不能縮小不同腳本之間的性能差距。這意味着問題並不單純在於視覺理解能力，而在於語言和腳本表徵層面。此外，模型在跨腳本的上下文學習（in-context learning）中表現極其不穩定，表明其知識實際上被鎖定在了特定腳本中，無法靈活遷移。

為了量化這一問題，作者提出了腳本一致性率（Script Consistency Rate，SCR），該指標衡量模型在三種腳本上表現一致的比例。在PuMVR基準上，最優模型的SCR也僅達到24.8%，説明模型在大部分情況下無法做到腳本無關的穩定推理。作者認為，SCR應成為評估VLM時的一項強制性指標，以確保AI系統對所有用户羣體公平，無論他們使用哪種書寫系統。

該研究還通過McNemar統計檢驗確認了所有腳本對之間的性能差異具有統計顯著性，並公開了數據和代碼以便復現。這一工作對當前“多語言”VLM的實際能力提出了嚴峻質疑，並強調了在多語言評估中納入腳本維度的必要性。對於使用多種腳本的語言（如旁遮普語、印地語、烏爾都語等）的用户而言，AI服務質量的差異可能因此變得不可忽視。