英語が地域知識を書き換えるとき:大規模言語モデルにおけるグローバルな物語の支配
本研究は、LLMが文化的に根付いた質問に対して局所的文脈よりもグローバルな物語を優先する「グローバルな物語支配」という現象を、バングラ語の低リソース文化を例に調査した。CulturalNBデータセットを用いた実験で、英語での質問はグローバルな代替と制度的枠組みを増やし、局所的視点を減少させること、また局所的証拠は事実整合性を改善するが言語起因の認識的シフトを排除できないことを示した。この発見は、文化的失敗が単なる知識欠落ではなく、接地と物語の優先順位付けの問題であることを示唆している。
大規模言語モデル(LLM)は、異言語間の知識インターフェースとして広く利用されている。しかし、文化的に根ざした質問に対しては、局所的な文脈よりもグローバルな支配的物語を反映することが多い。本研究では、低リソース文化であるバングラ語を例に、この失敗モードを「グローバルな物語支配」と定義し、体系的に調査した。
研究者らは、717の手作業でキュレーションされたベンガル文化インスタンスと、並列のバングラ語–英語の質問・回答ペア、およびそれを裏付ける証拠、メタデータ、社会文化注釈を含むCulturalNBデータセットを導入した。質問のみと証拠ベースのプロンプティングを用いて、9つの最先端LLMを評価し、異言語一貫性、言語アンカー、グローバル代替、制度的バイアス、認識的視点のカバレッジなどの指標を測定した。
結果は、英語で質問すると、グローバルな代替と制度的枠組みが系統的に増加し、局所的視点のカバレッジが減少することを示した。局所的証拠を提供すると事実整合性と視点カバレッジは改善されるが、言語によって引き起こされる認識的シフトを完全には排除できない。これらの発見は、LLMにおける文化的失敗は単なる知識欠落エラーではなく、接地と物語の優先順位付けの失敗であることを示唆している。研究者は、AIシステムにおいて地域知識の埋め込みと物語の多様性をより重視するよう呼びかけている。この研究は、より文化的に包括的なAIシステムを開発するための重要な理論的基盤を提供する。