AI News HubLIVE
サイト内リライト2 分で読了

BalCapRL:マルチモーダル大規模言語モデルの画像キャプショニングのためのバランスの取れた強化学習フレームワーク

Appleの研究チームは、マルチモーダル大規模言語モデル(MLLM)の画像キャプショニングにおいて、正確性、カバレッジ、言語品質を共同最適化するバランスの取れた強化学習フレームワーク「BalCapRL」を提案しました。GDPOスタイルの報酬分離正規化と長さ条件付き報酬マスキングを導入し、LLaVA-1.5およびQwen2.5-VLモデルでDCScore+13.6、CaptionQA+9.0、CapArena+29.0の向上を達成しました。

画像キャプショニングはコンピュータビジョンにおける最も基本的なタスクの一つであり、そのオープンエンドな性質から、マルチモーダル大規模言語モデル(MLLM)の時代に大きな注目を集めています。より詳細で正確なキャプションを追求する中で、近年の研究は強化学習(RL)への関心を高めています。しかし、既存のキャプショニングRL手法や評価指標は、キャプション品質の狭い側面のみを重視する傾向があり、キャプショニングの核心次元間でトレードオフを引き起こしています。例えば、実用性重視の目標は、ノイズや幻覚、冗長なキャプションを促進し、下流の質問応答性能を向上させる一方で、流暢さを損なう可能性があります。また、アリーナ形式の目標は、流暢だが汎用的で有用性に欠ける記述を好みます。

この問題に対処するため、Appleの研究チームは、実用性を考慮した正確性、参照カバレッジ、言語品質を共同最適化する、よりバランスの取れたRLフレームワーク「BalCapRL」を提案しました。連続値の多目的報酬を効果的に最適化するために、彼らはGDPOスタイルの報酬分離正規化を導入し、これが通常のGRPOよりも優れた性能を示すことを確認しました。さらに、長さ条件付き報酬マスキングを導入し、キャプショニングにより適した長さペナルティを実現しています。

実験では、LLaVA-1.5-7BおよびQwen2.5-VL(3B/7B)のベースモデルを用いて評価を行いました。その結果、BalCapRLはキャプション品質を一貫して向上させ、モデルによってDCScoreで+13.6、CaptionQAで+9.0、CapArenaで+29.0のピーク改善を達成しました。これらの結果は、BalCapRLが画像キャプショニングの多面的な要求を効果的にバランスし、強化学習ベースのマルチモーダル大規模言語モデルによるキャプション生成に有望なパラダイムを提供することを示しています。本研究は、画像キャプショニング技術の進展に貢献するだけでなく、他の多目的最適化を必要とする生成タスクにも参考となるでしょう。