小さな編集、大きなモデル:WikipediaのアドボカシーがLLMの価値観を形作る方法
新しい研究により、わずか125回の編集で、小さなWikipedia編集者のグループが大規模言語モデルの動物福祉に関する振る舞いに顕著な影響を与えられることが示されました。勾配ベースのデータ帰属手法を用いて、これらの編集の影響を追跡し、動物福祉関連のWikipediaコンテンツが関連クエリに対するモデルの応答で支配的になることを発見しました。
Wikipediaの編集者は、想像以上に強力な影響力を持っているかもしれません。Jasmine Brazilek氏らがarXivに提出した新しい研究(論文番号2606.24890)は、少数のボランティアが慎重に計画された編集活動を通じて、大規模言語モデル(LLM)の特定のトピックに関する振る舞いに顕著な影響を与えられることを明らかにしました。
この研究は、Pro-Animal Wikipedians(PAW)に焦点を当てています。PAWは、Wikipediaの関連記事に信頼できる情報源に基づく動物福祉コンテンツを追加することに専念するアドボカシーグループです。彼らはわずか115ページに125回の編集を行ったに過ぎませんが、勾配ベースのデータ帰属手法(BergsonおよびMAGIC)を用いた分析により、これらの編集がLlama 3.1 8BやLlama-3.2-1Bなどのモデルの振る舞いに測定可能な影響を与えたことがわかりました。
具体的には、TrackStar検索帰属では、動物福祉関連のクエリにおいて、PAW編集済みのセクションが最も帰属されたドキュメントの68%を占め(p < 0.0001)、同一企業に関する無関係のクエリでは52%でした(p = 0.53)。これは、モデルがPAWコンテンツを動物福祉トピックと強く結びつけ、エンティティ全般とは結びつけていないことを示しています。
MAGIC反事実影響推定では、この発見がさらに明確に確認されました。5つのランダムなトレーニング順序シードすべてにおいて、動物福祉クエリに対するトップ10の最も影響力のあるドキュメントはすべてPAW編集によるものでした(10/10、5/5シード)。一方、一般的なクエリでは、トップ10におけるPAWコンテンツの割合は偶然のレベル(4~6個)でした。
研究ではさらに、サブセットを除外した検証を実施し、すべての10回の実行でSpearmanの順位相関係数rho = 1.00を得ました。PAWコンテンツと対照コンテンツでそれぞれモデルを微調整したところ、各モデルは学習したテキストタイプでより良いパフォーマンスを示しました。PAWトレーニングモデルは動物福祉テキストのパープレキシティを12.4から8.4に低下させ、対照トレーニングモデルは対照テキストのパープレキシティを16.1から11.4に低下させました。
この研究の意義は、たとえ小規模な調整された編集活動であっても、AIシステムのトレーニングデータに永続的な痕跡を残し、モデルが関連トピックをどのように扱うかに影響を与え得ることを示した点にあります。Wikipediaが引き続きLLMトレーニングデータの重要なソースであり続ける中、この発見はデータの公正性とAIの価値観形成に関するより深い議論を呼び起こすものです。