2026-05-11 08:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-27 08:25 UTC+8

BalCapRL：面向多模態大語言模型影像描述的平衡強化學習框架

蘋果研究團隊提出BalCapRL，一個聯合最佳化正確性、覆蓋率和語言質量的強化學習框架，用於多模態大語言模型的影像描述生成。透過引入GDPO風格的獎勵解耦歸一化和長度條件獎勵掩碼，BalCapRL在LLaVA-1.5和Qwen2.5-VL等模型上實現了顯著效能提升，例如DCScore提升13.6點，CaptionQA提升9.0點，CapArena提升29.0點。

來源Apple Machine Learning Research

影像描述是計算機視覺中最基礎的任務之一，其開放式的特點使其在多模態大語言模型（MLLM）時代備受關注。為了生成更詳細、更準確的描述，近年來越來越多的研究開始採用強化學習（RL）方法。然而，現有的基於強化學習的影像描述方法和評估指標往往只強調單一方面的描述質量，導致在描述的核心維度之間出現權衡。例如，以實用性為目標的方法可能會鼓勵生成包含噪聲、幻覺或篇幅過長的描述，這類描述雖然能提升下游問答任務的效能，但會損害語言的流暢性；而以競技場風格為目標的方法則傾向於生成流暢但過於通用、實用性有限的描述。

為了克服這些侷限性，蘋果公司的研究團隊提出了BalCapRL——一個更加平衡的強化學習框架。該框架同時最佳化三個關鍵方面：實用性感知的正確性（即描述是否準確且對下游任務有用）、參考覆蓋率（描述是否覆蓋了影像中的關鍵內容）以及語言質量（描述是否通順、自然）。為了實現這一連續的多目標獎勵最佳化，研究團隊引入了GDPO風格的獎勵解耦歸一化技術。透過對連續值的影像描述獎勵進行解耦和歸一化，該方法顯著優於普通的GRPO（分組相對策略最佳化）。此外，他們還設計了長度條件獎勵掩碼，為不同長度的描述提供更合適的懲罰，從而避免模型生成過長或過短的描述。

在實驗部分，研究團隊基於LLaVA-1.5-7B、Qwen2.5-VL 3B和7B等主流多模態大語言模型進行了測試。結果顯示，BalCapRL在所有模型上均持續提升了描述質量：在DCScore指標上最高提升了13.6點，在CaptionQA上提升了9.0點，在CapArena上提升了29.0點（具體提升幅度因模型而異）。這些結果表明，BalCapRL能夠有效平衡影像描述的多方面需求，為基於強化學習的多模態大語言模型描述生成提供了一種更具前景的正規化。該研究不僅推動了影像描述技術的發展，也為其他需要多目標最佳化的生成任務提供了參考。