2026-05-11 08:00 UTC+8站内改写1 分钟阅读更新: 2026-06-27 08:25 UTC+8

BalCapRL：面向多模态大语言模型图像描述的平衡强化学习框架

苹果研究团队提出BalCapRL，一个联合优化正确性、覆盖率和语言质量的强化学习框架，用于多模态大语言模型的图像描述生成。通过引入GDPO风格的奖励解耦归一化和长度条件奖励掩码，BalCapRL在LLaVA-1.5和Qwen2.5-VL等模型上实现了显著性能提升，例如DCScore提升13.6点，CaptionQA提升9.0点，CapArena提升29.0点。

来源Apple Machine Learning Research

图像描述是计算机视觉中最基础的任务之一，其开放式的特点使其在多模态大语言模型（MLLM）时代备受关注。为了生成更详细、更准确的描述，近年来越来越多的研究开始采用强化学习（RL）方法。然而，现有的基于强化学习的图像描述方法和评估指标往往只强调单一方面的描述质量，导致在描述的核心维度之间出现权衡。例如，以实用性为目标的方法可能会鼓励生成包含噪声、幻觉或篇幅过长的描述，这类描述虽然能提升下游问答任务的性能，但会损害语言的流畅性；而以竞技场风格为目标的方法则倾向于生成流畅但过于通用、实用性有限的描述。

为了克服这些局限性，苹果公司的研究团队提出了BalCapRL——一个更加平衡的强化学习框架。该框架同时优化三个关键方面：实用性感知的正确性（即描述是否准确且对下游任务有用）、参考覆盖率（描述是否覆盖了图像中的关键内容）以及语言质量（描述是否通顺、自然）。为了实现这一连续的多目标奖励优化，研究团队引入了GDPO风格的奖励解耦归一化技术。通过对连续值的图像描述奖励进行解耦和归一化，该方法显著优于普通的GRPO（分组相对策略优化）。此外，他们还设计了长度条件奖励掩码，为不同长度的描述提供更合适的惩罚，从而避免模型生成过长或过短的描述。

在实验部分，研究团队基于LLaVA-1.5-7B、Qwen2.5-VL 3B和7B等主流多模态大语言模型进行了测试。结果显示，BalCapRL在所有模型上均持续提升了描述质量：在DCScore指标上最高提升了13.6点，在CaptionQA上提升了9.0点，在CapArena上提升了29.0点（具体提升幅度因模型而异）。这些结果表明，BalCapRL能够有效平衡图像描述的多方面需求，为基于强化学习的多模态大语言模型描述生成提供了一种更具前景的范式。该研究不仅推动了图像描述技术的发展，也为其他需要多目标优化的生成任务提供了参考。