小编辑,大模型:维基百科倡导如何塑造大语言模型的价值观
一项新研究表明,一群维基百科编辑者通过仅125次编辑,就能显著影响大语言模型在动物福利话题上的行为。研究使用梯度归因方法追踪了这些编辑的影响,发现维基百科中动物福利相关的编辑内容在模型对相关查询的响应中占据主导地位。
维基百科的编辑者可能比我们想象的更有力量。一项由Jasmine Brazilek等人提交至arXiv的新研究(论文编号2606.24890)揭示了这样一个事实:一小群志愿者通过精心策划的编辑活动,能够显著影响大语言模型(LLM)在特定话题上的表现。
该研究关注的是Pro-Animal Wikipedians(PAW),这是一个致力于在维基百科相关条目中添加有可靠来源的动物福利内容的倡导者群体。他们仅在115个页面上进行了125次编辑,但使用基于梯度的数据归因方法(Bergson和MAGIC)后,研究人员发现这些编辑对Llama 3.1 8B和Llama-3.2-1B等模型的行为产生了可测量的影响。
具体而言,TrackStar检索归因显示,在动物福利相关查询中,PAW编辑过的章节占最高归因文档的68%(p < 0.0001),而对于同一公司的不相关查询,这一比例仅为52%(p = 0.53)。这意味着模型将PAW内容与动物福利话题紧密关联,而非泛泛地关联到实体本身。
MAGIC反事实影响估计进一步证实了这一发现:在所有五个随机训练顺序种子中,对于动物福利查询,前十名最具影响力的文档全部来自PAW编辑(10/10,5/5种子),而对于一般查询,前十名中PAW内容的比例仅为随机水平(4到6个)。
研究还进行了保留子集验证,得到Spearman相关系数rho = 1.00(所有10次运行)。当研究人员基于PAW内容和对照内容分别微调模型时,每个模型都在其训练文本类型上表现更好:PAW训练的模型将动物福利文本的困惑度从12.4降至8.4,而对照训练的模型将对照文本的困惑度从16.1降至11.4。
这项研究的意义在于,它提供了一个具体的案例,展示了即使是小规模的协调性编辑活动,也能在AI系统的训练数据中留下持久的印记,从而影响模型如何处理相关话题。随着维基百科继续作为LLM训练数据的关键来源,这一发现引发了关于数据公正性和AI价值观塑造的更深层次讨论。