2026-05-25 13:00 UTC+9サイト内リライト1 分で読了更新: 2026-06-30 22:03 UTC+9

学習可能性を考慮した拡散言語モデルのファインチューニング

拡散言語モデル（DLM）の推論能力向上を目指し、研究者らはLIFTを提案。拡散ステップごとに異なるトークンの学習容易性に適応することで、6つの推論ベンチマークで既存手法を上回り、AIME'24およびAIME'25で最大3倍の相対的改善を達成した。

ソースarXiv Computational Linguistics著者: Shubham Parashar, Atharv Chagi, Jacob Helwig, Lakshmi Jotsna, Sushil Vemuri, James Caverlee, Dileep Kalathil, Shuiwang Ji

拡散言語モデル（DLM）は、テキスト生成において有望なモデルであるが、その推論能力には改善の余地がある。自己回帰モデルで広く使われる教師ありファインチューニング（SFT）は、DLMに適用すると効果が薄く、場合によっては性能を低下させることもある。その原因は、標準的なSFTが「学習可能性」、すなわちトークンがいつどのように学習されるかを考慮していないことにあると、本研究は分析している。

具体的には、入力の大部分がマスクされている状態では、出現頻度の低いトークンの学習は困難である。一方、入力の大部分がマスクされていない場合、頻出トークンの学習は容易だが、モデルの改善にほとんど寄与しない。この不均衡がSFTの非効率性を招いている。

そこで研究チームは、LIFT（Learnability-Informed Fine-Tuning）アルゴリズムを提案した。LIFTは、拡散プロセスの各タイムステップにおいて、利用可能な情報量に応じて学習するトークンを変化させる。マスク率が高い段階では簡単なトークンを学習し、コンテキストが増えるにつれて難しいトークンに移行する。これにより、各ステップで得られる情報を最大限活用できる。

実験の結果、LIFTは6つの推論ベンチマークで既存のSFT手法を凌駕し、特にAIME'24およびAIME'25では最大3倍の相対的性能向上を達成した。この研究は、拡散言語モデルのファインチューニングに理論的基盤を提供するとともに、実用的なアルゴリズムを示している。コードは公開されており、今後の研究の発展に寄与することが期待される。