並非真正的多語言:指令碼一致性——視覺語言模型評估中缺失的維度
新研究指出,當前視覺語言模型(VLM)的多語言評估忽略了多指令碼語言使用者。研究團隊引入旁遮普語多模態視覺推理(PuMVR)基準,包含1000個嚴格平行的影像-文本例項,覆蓋旁遮普語的三種活躍指令碼:古爾穆基文、沙穆基文和羅馬文。評估10個先進VLM後發現顯著的“指令碼差距”,模型在一種指令碼中成功解決視覺任務,但在另一種指令碼中失敗,準確率差異高達16%。視覺輸入雖能整體提升效能,但無法消除字形差距。跨指令碼上下文遷移極其脆弱,暴露了指令碼鎖定的知識表示。作者提出指令碼一致性率(SCR),最低僅24.8%,呼籲將其作為強制評估指標,以確保AI的公平訪問。
一篇由Prabhjot Singh及其同事發表的最新研究論文揭示了當前視覺語言模型(VLM)在跨指令碼評估中的一個關鍵盲點。儘管這些模型聲稱支援多語言,但在處理像旁遮普語這樣使用多種書寫系統的語言時,其表現遠非一致。旁遮普語同時使用古爾穆基文(Gurmukhi)、沙穆基文(Shahmukhi)和羅馬文(Roman)三種活躍指令碼,這為評估VLM的真正多語言能力提供了獨特的測試場景。
研究團隊建立了旁遮普語多模態視覺推理(PuMVR)基準,這是一個包含1000個嚴格平行的影像-文本對的資料集,每個例項都以三種指令碼呈現相同內容。他們評估了10款最先進的VLM,包括開源和閉源模型,結果發現了系統性的“指令碼差距”。具體來說,模型在一種指令碼下能夠準確回答關於影像的問題,但面對完全相同的任務,只是換成另一種指令碼時,準確率卻大幅下降,最大差異達到16個百分點。例如,一個模型可能對古爾穆基文的問題回答正確,但對沙穆基文或羅馬文的同一問題卻給出錯誤答案。
更有意思的是,研究還發現視覺輸入雖然能總體提升模型的效能,但並不能縮小不同指令碼之間的效能差距。這意味著問題並不單純在於視覺理解能力,而在於語言和指令碼表徵層面。此外,模型在跨指令碼的上下文學習(in-context learning)中表現極其不穩定,表明其知識實際上被鎖定在了特定指令碼中,無法靈活遷移。
為了量化這一問題,作者提出了指令碼一致性率(Script Consistency Rate,SCR),該指標衡量模型在三種指令碼上表現一致的比例。在PuMVR基準上,最優模型的SCR也僅達到24.8%,說明模型在大部分情況下無法做到指令碼無關的穩定推理。作者認為,SCR應成為評估VLM時的一項強制性指標,以確保AI系統對所有使用者群體公平,無論他們使用哪種書寫系統。
該研究還透過McNemar統計檢驗確認了所有指令碼對之間的效能差異具有統計顯著性,並公開了資料和程式碼以便復現。這一工作對當前“多語言”VLM的實際能力提出了嚴峻質疑,並強調了在多語言評估中納入指令碼維度的必要性。對於使用多種指令碼的語言(如旁遮普語、印地語、烏爾都語等)的使用者而言,AI服務質量的差異可能因此變得不可忽視。