當英語改寫本地知識:大型語言模型中的全球敍事主導地位
本研究探討大型語言模型(LLM)在跨語言知識接口中的文化偏差問題,提出了“全球敍事主導”概念,並通過孟加拉語數據集CulturalNB的測試,發現英語提問會系統性地增加全球替代和制度框架,減少本地視角覆蓋。本地證據能改善事實一致性,但無法消除語言引發的認知偏移。這一發現表明,LLM的文化失敗不僅是知識缺失,更是根基缺失和敍事優先級的問題。該研究為開發更具文化包容性的AI系統提供了重要理論基礎。
來源arXiv Computational Linguistics作者: Md Arid Hasan, Ruwad Naswan, Farhan Samir, Sharifa Sultana, Syed Ishtiaque Ahmed
大型語言模型(LLM)被廣泛用作跨語言知識接口,但它們在回答文化相關問題時,往往反映全球主導敍事而非本地語境。一項最新研究以孟加拉語這一低資源文化背景為例,系統性地探索了這種失敗模式,並將其定義為“全球敍事主導”。
研究者引入了CulturalNB數據集,包含717個經過人工篩選的孟加拉語文化實例,並提供平行的孟加拉語-英語問答對,以及支持證據、元數據和社會文化註釋。他們採用僅問題和基於證據的提示方式,結合人工評委和兩個獨立的LLM評委,評估了九個最先進的LLM在跨語言一致性、語言錨定、全球替代、制度偏見和認知視角覆蓋等指標上的表現。
結果顯示,用英語提問會系統性地增加全球替代和制度框架,同時減少本地視角的覆蓋。提供本地證據雖然能提高事實一致性和視角覆蓋,但無法完全消除由語言引發的認知偏移。這些發現表明,LLM的文化失敗不僅僅是知識缺失錯誤,更是根基缺失和敍事優先級的問題。研究者呼籲在AI系統中更加重視本地知識的嵌入和敍事多樣性。這一研究為開發更具文化包容性的AI系統提供了重要理論基礎,同時也提醒我們在使用LLM進行跨語言知識傳遞時需謹慎對待文化偏差問題。