AI News HubLIVE
站内改写1 分鐘閱讀

文化漏斗:資料中缺失的,無法對齊

當前文化對齊方法主要關注推理時干預,但模型可能缺乏足夠的文化知識。研究提出“文化漏斗”概念,指出在後訓練階段文化訊號顯著減少,而地理集中、任務專業化的資料佔主導。多語言雖能增強地理多樣性,但不能保證平衡。釋出含560萬樣本的文化標記資料集,提升下游文化基準效能。

來源arXiv Computational Linguistics作者: Ananya Sahu, Mehrnaz Mofakhami, Daniel D'Souza, Thomas Euyang, Julia Kreutzer, Marzieh Fadaee

來自arXiv的最新研究《文化漏斗:資料中缺失的,無法對齊》揭示了大語言模型(LLM)在文化對齊方面的一個關鍵問題:當前方法主要關注推理時的干預,但模型本身可能並未在訓練資料中獲得足夠的文化知識。研究者將這種現象稱為“文化資料漏斗”——在預訓練、微調、對齊和推理資料集的四階段管道中,明確的文化訊號在後訓練階段急劇下降,而地理集中、任務專業化的資料則佔據主導地位。

研究團隊開發了一個多維標籤框架,對大規模資料集中的文化內容進行標記和分析。他們發現,儘管多語言訓練能夠增加文化知識的地理多樣性,但這並不能保證不同文化背景下的表徵是平衡的。相反,以英語為中心、特定任務的資料在後期階段擠壓了文化多樣性。

為了驗證這一觀點,研究者利用他們構建的文化標記資料集(稱為CultureMarkers,包含560萬樣本)改進下游文化基準測試的效能,證明了將焦點轉移到訓練資料管道的必要性。該資料集已在Hugging Face上公開,供其他研究者使用。

這項研究挑戰了當前流行的“推理時對齊”正規化,強調文化對齊應從資料來源頭開始。對於構建真正具有文化包容性的AI系統,這一發現具有重要意義。研究還指出,僅僅增加模型的多語言能力並不能解決文化偏差,因為訓練資料的文化多樣性才是根本。未來的工作應關注如何在預訓練階段就納入豐富的文化知識,而不僅僅是在後訓練階段進行微調。該團隊計劃進一步擴充套件標籤框架,覆蓋更多小眾文化,並探索文化資料增強技術,以緩解漏斗效應。