当英语改写本地知识:大型语言模型中的全球叙事主导地位
本研究探讨大型语言模型(LLM)在跨语言知识接口中的文化偏差问题,提出了“全球叙事主导”概念,并通过孟加拉语数据集CulturalNB的测试,发现英语提问会系统性地增加全球替代和制度框架,减少本地视角覆盖。本地证据能改善事实一致性,但无法消除语言引发的认知偏移。这一发现表明,LLM的文化失败不仅是知识缺失,更是根基缺失和叙事优先级的问题。该研究为开发更具文化包容性的AI系统提供了重要理论基础。
来源arXiv Computational Linguistics作者: Md Arid Hasan, Ruwad Naswan, Farhan Samir, Sharifa Sultana, Syed Ishtiaque Ahmed
大型语言模型(LLM)被广泛用作跨语言知识接口,但它们在回答文化相关问题时,往往反映全球主导叙事而非本地语境。一项最新研究以孟加拉语这一低资源文化背景为例,系统性地探索了这种失败模式,并将其定义为“全球叙事主导”。
研究者引入了CulturalNB数据集,包含717个经过人工筛选的孟加拉语文化实例,并提供平行的孟加拉语-英语问答对,以及支持证据、元数据和社会文化注释。他们采用仅问题和基于证据的提示方式,结合人工评委和两个独立的LLM评委,评估了九个最先进的LLM在跨语言一致性、语言锚定、全球替代、制度偏见和认知视角覆盖等指标上的表现。
结果显示,用英语提问会系统性地增加全球替代和制度框架,同时减少本地视角的覆盖。提供本地证据虽然能提高事实一致性和视角覆盖,但无法完全消除由语言引发的认知偏移。这些发现表明,LLM的文化失败不仅仅是知识缺失错误,更是根基缺失和叙事优先级的问题。研究者呼吁在AI系统中更加重视本地知识的嵌入和叙事多样性。这一研究为开发更具文化包容性的AI系统提供了重要理论基础,同时也提醒我们在使用LLM进行跨语言知识传递时需谨慎对待文化偏差问题。