2026-06-17站内改写2 分鐘閱讀更新: 2026-06-17

並非真正的多語言：指令碼一致性——視覺語言模型評估中缺失的維度

新研究指出，當前視覺語言模型（VLM）的多語言評估忽略了多指令碼語言使用者。研究團隊引入旁遮普語多模態視覺推理（PuMVR）基準，包含1000個嚴格平行的影像-文本例項，覆蓋旁遮普語的三種活躍指令碼：古爾穆基文、沙穆基文和羅馬文。評估10個先進VLM後發現顯著的“指令碼差距”，模型在一種指令碼中成功解決視覺任務，但在另一種指令碼中失敗，準確率差異高達16%。視覺輸入雖能整體提升效能，但無法消除字形差距。跨指令碼上下文遷移極其脆弱，暴露了指令碼鎖定的知識表示。作者提出指令碼一致性率（SCR），最低僅24.8%，呼籲將其作為強制評估指標，以確保AI的公平訪問。

來源arXiv Computer Vision作者: Prabhjot Singh, Bhushan Pawar, Madhu Reddiboina, Rajvee Sheth

一篇由Prabhjot Singh及其同事發表的最新研究論文揭示了當前視覺語言模型（VLM）在跨指令碼評估中的一個關鍵盲點。儘管這些模型聲稱支援多語言，但在處理像旁遮普語這樣使用多種書寫系統的語言時，其表現遠非一致。旁遮普語同時使用古爾穆基文（Gurmukhi）、沙穆基文（Shahmukhi）和羅馬文（Roman）三種活躍指令碼，這為評估VLM的真正多語言能力提供了獨特的測試場景。

研究團隊建立了旁遮普語多模態視覺推理（PuMVR）基準，這是一個包含1000個嚴格平行的影像-文本對的資料集，每個例項都以三種指令碼呈現相同內容。他們評估了10款最先進的VLM，包括開源和閉源模型，結果發現了系統性的“指令碼差距”。具體來說，模型在一種指令碼下能夠準確回答關於影像的問題，但面對完全相同的任務，只是換成另一種指令碼時，準確率卻大幅下降，最大差異達到16個百分點。例如，一個模型可能對古爾穆基文的問題回答正確，但對沙穆基文或羅馬文的同一問題卻給出錯誤答案。

更有意思的是，研究還發現視覺輸入雖然能總體提升模型的效能，但並不能縮小不同指令碼之間的效能差距。這意味著問題並不單純在於視覺理解能力，而在於語言和指令碼表徵層面。此外，模型在跨指令碼的上下文學習（in-context learning）中表現極其不穩定，表明其知識實際上被鎖定在了特定指令碼中，無法靈活遷移。

為了量化這一問題，作者提出了指令碼一致性率（Script Consistency Rate，SCR），該指標衡量模型在三種指令碼上表現一致的比例。在PuMVR基準上，最優模型的SCR也僅達到24.8%，說明模型在大部分情況下無法做到指令碼無關的穩定推理。作者認為，SCR應成為評估VLM時的一項強制性指標，以確保AI系統對所有使用者群體公平，無論他們使用哪種書寫系統。

該研究還透過McNemar統計檢驗確認了所有指令碼對之間的效能差異具有統計顯著性，並公開了資料和程式碼以便復現。這一工作對當前“多語言”VLM的實際能力提出了嚴峻質疑，並強調了在多語言評估中納入指令碼維度的必要性。對於使用多種指令碼的語言（如旁遮普語、印地語、烏爾都語等）的使用者而言，AI服務質量的差異可能因此變得不可忽視。