2026-06-08 13:00 UTC+9サイト内リライト1 分で読了更新: 2026-06-30 22:03 UTC+9

一貫性駆動型強化学習による言語横断的事実想起の改善

大規模言語モデルは主に英語データで訓練されるため、多言語での事実想起に課題がある。本論文では、12言語にわたる10万件のWikidata事実を含む大規模並列多言語事実QAデータセットPolyFactを導入。Qwen-2.5-7BとOLMo-2-1124-7Bを用いて、軽量継続事前学習、教師ありファインチューニング、GRPOベースの強化学習を比較。GRPOが一貫して優れ、言語間の一貫性と未学習言語への汎化を向上。メカニズム分析により、GRPOがMLP層とアテンションヘッドの言語特化を減らし、共有表現を促進することが示された。コード、モデル、データセットを公開。

ソースarXiv Computational Linguistics著者: Jonathan von Rad, Louis Arts, George Burgess, Eleftheria Kolokytha, Harry O'Donnell, Ektor Oikonomidis Doumpas, Eduardo Sanchez, Yao Lu, Pontus Stenetorp

大規模言語モデル（LLM）は主に英語データで訓練されるため、膨大な世界知識を符号化しているが、他の言語でそれらを確実に表現できないことが多く、これは言語横断的事実不一致として知られている。この問題を研究し解決するために、研究者らはPolyFactを導入した。これは、12の類型学的に多様な言語にわたる10万件のWikidataに基づく事実を含む、大規模な並列多言語事実QAデータセットである。

PolyFactを用いて、研究チームは軽量継続事前学習（CPT）、教師ありファインチューニング（SFT）、およびグループ相対政策最適化（GRPO）による強化学習を、Qwen-2.5-7BとOLMo-2-1124-7Bモデルで比較した。その結果、GRPOは一貫してSFTを上回り、言語横断的一貫性と未学習言語への汎化を改善した。一方、並列データを用いたCPTは限定的な追加利益しかもたらさなかった。

さらにメカニズム分析により、GRPOはMLP層とアテンションヘッドにおける言語特化を減少させることで多言語ルーティングを再編成し、より共有された言語横断表現を促進することが示された。

研究チームはコード、モデル、データセットを公開しており、本論文は現在EMNLP 2026で審査中である。