チャットボットを超えた直接選好最適化
Dharma-AIチームは、構造化OCRタスクに直接選好最適化(DPO)を適用し、モデル自身の退化出力を拒否ペアとして使用することで、テキスト退化率を平均59.4%、最大87.6%削減することに成功しました。この手法は人間の選好ラベルを必要とせず、客観的な構造化タスクに有効です。
最近、Dharma-AIチームは、チャット以外のタスクに直接選好最適化(DPO)を適用した研究を発表しました。この研究では、モデル自身の失敗出力を学習信号として活用し、構造化OCRタスクにおけるテキスト退化率を劇的に低減する方法が示されています。同手法はDharmaOCRモデルで検証され、論文とベンチマークにより、DPOが退化率を平均59.4%、最大87.6%削減できることが実証されました。
テキスト退化は、自己回帰型言語モデルが長いシーケンスを生成する際によく発生する問題で、繰り返しループに陥り意味のない出力を生み出します。従来の教師ありファインチューニング(SFT)は特定タスクでの性能を向上させるものの、退化率の改善には限界があります。なぜなら、SFTはトークン単位で最適化するため、シーケンス全体としての退化をペナルティとして与えることができないからです。一方、DPOは完全な出力を比較し、選好ペア(選好出力と拒否出力)を用いてモデルを退化モードから遠ざけるように学習します。
DharmaOCRのユニークな点は、DPOの訓練データにおける拒否サンプルが、人間によるラベリングではなく、モデル自身が推論時に生成した退化出力であることです。研究チームは、これらの失敗出力こそが最も価値のある負の信号であり、モデルが避けるべき故障モードを正確に示していると発見しました。具体的には、SFTモデルを使って同じ文書に対して複数の候補出力を生成し、自動スコアリングモデルによって退化シーケンスを拒否サンプルとして、正しい文字起こしを選好サンプルとしてラベリングしました。このアプローチは、追加の人手によるアノテーションコストを必要とせず、モデルが適切な出力と識別可能な失敗出力の両方を生成できることのみを前提とします。
実験は5種類の視覚言語モデルファミリー(Qwen2.5-VL、Nanonets-OCRなど)にわたって実施され、DPOが一貫して退化率を低下させることが確認されました。特に注目すべきは、Qwen2.5-VL-3Bモデルで、SFT後に退化率が0.60%から3.23%に上昇したものの、DPOによって1.41%に改善された点です。これは、SFTがモデルを退化アトラクター領域に引き込む可能性があることを示し、DPOがそれを修正できることを実証しています。この現象は、SFTとDPOのメカニズムの相補性を明らかにしています。SFTはタスク能力を高め、DPOはその過程で露呈する退化問題を直接的に処理します。
DPOの訓練信号はモデル自身の失敗出力から得られており、この設計判断により、通常はフィルタリングされるノイズが最も情報量の多い負の信号に変換されました。DharmaOCRチームは23,726の訓練文書を使用し、各文書に対してSFTモデルが複数の候補出力を生成し、LLM自動スコアラーが退化出力を拒否サンプルとしてラベリングしました。従来の方法とは異なり、彼らは退化出力を意図的に拒否例として保持しました。なぜなら、それらはDPO段階が抑制するように設計された故障モードを正確に表しているからです。
この手法は、特に人間の選好ラベルが得られにくい客観的な構造化タスクに対して有効な訓練パラダイムを提供します。モデル自身のエラーを学習信号として活用することで、追加データを必要とせずに出力品質を大幅に向上させることができ、今後非チャットシナリオでの選好最適化の応用範囲を広げるものと期待されます。この研究は、DPOが非対話タスクでも有効であることを検証しただけでなく、テキスト退化という一般的な問題に対する新しい解決策を提供しています。