2026-06-08 13:00 UTC+9サイト内リライト1 分で読了更新: 2026-06-30 22:03 UTC+9

オン・ポリシー蒸留によるデータ効率的な自己回帰型から拡散言語モデルへの変換

本研究では、オン・ポリシー蒸留（OPD）を用いて自己回帰モデルを拡散言語モデルに変換するオン・ポリシー拡散言語モデル（OPDLM）を提案する。従来手法の分布シフト問題を解決し、多様なタスクで従来の15分の1から7000分の1の学習トークン数で強力な性能を達成する。

ソースarXiv Computational Linguistics著者: Xingyu Su, Jacob Helwig, Shubham Parashar, Atharv Chagi, Lakshmi Jotsna, Degui Zhi, James Caverlee, Dileep Kalathil, Shuiwang Ji

記事インテリジェンス

エンジニア上級

要点

OPDLMはオン・ポリシー蒸留により学習-推論のミスマッチを解消し、自己回帰モデルの知識を保持する。
従来手法に比べ、学習トークン数を15倍から7000倍削減。
拡散言語モデルへの変換を自己回帰モデルのポストトレーニングとして位置付け、高コストな事前学習を回避する。

重要な理由

このニュースが重要なのは、OPDLMはオン・ポリシー蒸留により学習-推論のミスマッチを解消し、自己回帰モデルの知識を保持するためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

このパネルは AI が生成し、正確性を確認済みです。

arXivに最近公開された研究で、自己回帰言語モデル（ARLM）を拡散言語モデル（DLM）に効率的に変換する新しい手法「オン・ポリシー拡散言語モデル（OPDLM）」が提案されました。従来の変換手法では、ARLMの因果的注意を双方向的注意に置き換え、DLMの目的関数で訓練しますが、これにより二つの分布シフトが生じます。第一に、次トークン予測目的からDLM目的への移行でARLMが獲得した知識が失われる可能性があります。第二に、標準的なDLMは訓練時にランダムにマスクされた系列で損失を定義するのに対し、推論時には信頼度に基づく復号で生成された系列を用いるため、訓練と推論のミスマッチが生じます。

これらの課題を解決するため、OPDLMは自己オン・ポリシー蒸留を採用します。学生モデルは双方向的注意を持つARLMで自身の軌跡を生成し、教師モデルは元の凍結されたARLMで、これらの軌跡に対する目標ロジットを提供して知識を蒸留します。オン・ポリシー学習により、DLMの訓練-推論ミスマッチが解消され、元のモデルからの蒸留で知識保持が向上します。

実験結果は、OPDLMが従来の15分の1から7000分の1の訓練トークン数で多様なタスクにわたり強力な性能を発揮することを示しています。OPDLMはDLM事前学習の莫大なコストを回避し、DLM変換をARLMのポストトレーニングの一形態として位置づけます。この研究は、言語モデル変換の新たな方向性を示し、効率的で高性能な言語モデルの開発に貢献するものと期待されます。