並非真正的多語言:腳本一致性——視覺語言模型評估中缺失的維度
新研究指出,當前視覺語言模型(VLM)的多語言評估忽略了多腳本語言用户。研究團隊引入旁遮普語多模態視覺推理(PuMVR)基準,包含1000個嚴格平行的圖像-文本實例,覆蓋旁遮普語的三種活躍腳本:古爾穆基文、沙穆基文和羅馬文。評估10個先進VLM後發現顯著的“腳本差距”,模型在一種腳本中成功解決視覺任務,但在另一種腳本中失敗,準確率差異高達16%。視覺輸入雖能整體提升性能,但無法消除字形差距。跨腳本上下文遷移極其脆弱,暴露了腳本鎖定的知識表示。作者提出腳本一致性率(SCR),最低僅24.8%,呼籲將其作為強制評估指標,以確保AI的公平訪問。
一篇由Prabhjot Singh及其同事發表的最新研究論文揭示了當前視覺語言模型(VLM)在跨腳本評估中的一個關鍵盲點。儘管這些模型聲稱支持多語言,但在處理像旁遮普語這樣使用多種書寫系統的語言時,其表現遠非一致。旁遮普語同時使用古爾穆基文(Gurmukhi)、沙穆基文(Shahmukhi)和羅馬文(Roman)三種活躍腳本,這為評估VLM的真正多語言能力提供了獨特的測試場景。
研究團隊創建了旁遮普語多模態視覺推理(PuMVR)基準,這是一個包含1000個嚴格平行的圖像-文本對的數據集,每個實例都以三種腳本呈現相同內容。他們評估了10款最先進的VLM,包括開源和閉源模型,結果發現了系統性的“腳本差距”。具體來説,模型在一種腳本下能夠準確回答關於圖像的問題,但面對完全相同的任務,只是換成另一種腳本時,準確率卻大幅下降,最大差異達到16個百分點。例如,一個模型可能對古爾穆基文的問題回答正確,但對沙穆基文或羅馬文的同一問題卻給出錯誤答案。
更有意思的是,研究還發現視覺輸入雖然能總體提升模型的性能,但並不能縮小不同腳本之間的性能差距。這意味着問題並不單純在於視覺理解能力,而在於語言和腳本表徵層面。此外,模型在跨腳本的上下文學習(in-context learning)中表現極其不穩定,表明其知識實際上被鎖定在了特定腳本中,無法靈活遷移。
為了量化這一問題,作者提出了腳本一致性率(Script Consistency Rate,SCR),該指標衡量模型在三種腳本上表現一致的比例。在PuMVR基準上,最優模型的SCR也僅達到24.8%,説明模型在大部分情況下無法做到腳本無關的穩定推理。作者認為,SCR應成為評估VLM時的一項強制性指標,以確保AI系統對所有用户羣體公平,無論他們使用哪種書寫系統。
該研究還通過McNemar統計檢驗確認了所有腳本對之間的性能差異具有統計顯著性,並公開了數據和代碼以便復現。這一工作對當前“多語言”VLM的實際能力提出了嚴峻質疑,並強調了在多語言評估中納入腳本維度的必要性。對於使用多種腳本的語言(如旁遮普語、印地語、烏爾都語等)的用户而言,AI服務質量的差異可能因此變得不可忽視。