小編輯,大模型:維基百科倡導如何塑造大語言模型的價值觀
一項新研究表明,一羣維基百科編輯者通過僅125次編輯,就能顯著影響大語言模型在動物福利話題上的行為。研究使用梯度歸因方法追蹤了這些編輯的影響,發現維基百科中動物福利相關的編輯內容在模型對相關查詢的響應中佔據主導地位。
維基百科的編輯者可能比我們想象的更有力量。一項由Jasmine Brazilek等人提交至arXiv的新研究(論文編號2606.24890)揭示了這樣一個事實:一小羣志願者通過精心策劃的編輯活動,能夠顯著影響大語言模型(LLM)在特定話題上的表現。
該研究關注的是Pro-Animal Wikipedians(PAW),這是一個致力於在維基百科相關條目中添加有可靠來源的動物福利內容的倡導者羣體。他們僅在115個頁面上進行了125次編輯,但使用基於梯度的數據歸因方法(Bergson和MAGIC)後,研究人員發現這些編輯對Llama 3.1 8B和Llama-3.2-1B等模型的行為產生了可測量的影響。
具體而言,TrackStar檢索歸因顯示,在動物福利相關查詢中,PAW編輯過的章節佔最高歸因文檔的68%(p < 0.0001),而對於同一公司的不相關查詢,這一比例僅為52%(p = 0.53)。這意味着模型將PAW內容與動物福利話題緊密關聯,而非泛泛地關聯到實體本身。
MAGIC反事實影響估計進一步證實了這一發現:在所有五個隨機訓練順序種子中,對於動物福利查詢,前十名最具影響力的文檔全部來自PAW編輯(10/10,5/5種子),而對於一般查詢,前十名中PAW內容的比例僅為隨機水平(4到6個)。
研究還進行了保留子集驗證,得到Spearman相關係數rho = 1.00(所有10次運行)。當研究人員基於PAW內容和對照內容分別微調模型時,每個模型都在其訓練文本類型上表現更好:PAW訓練的模型將動物福利文本的困惑度從12.4降至8.4,而對照訓練的模型將對照文本的困惑度從16.1降至11.4。
這項研究的意義在於,它提供了一個具體的案例,展示了即使是小規模的協調性編輯活動,也能在AI系統的訓練數據中留下持久的印記,從而影響模型如何處理相關話題。隨着維基百科繼續作為LLM訓練數據的關鍵來源,這一發現引發了關於數據公正性和AI價值觀塑造的更深層次討論。