AI News HubLIVE
站内改写1 分钟阅读

关于强化学习微调视觉语言模型的鲁棒性与思维链一致性

强化学习微调提升了视觉语言模型在推理基准上的表现,但研究发现模型在面对误导性标注或错误思维链时鲁棒性显著下降。封闭模型比开源模型更鲁棒,且存在准确性与忠实性之间的权衡。仅靠对抗性增强不足以解决问题,引入忠实性奖励可改善对齐,但可能引发捷径学习。

强化学习(RL)微调已成为提升大语言模型(LLM)推理能力的关键技术,并正被扩展至视觉语言模型(VLM)。然而,尽管RL微调后的VLM在视觉推理基准上表现提升,它们仍然存在视觉基础薄弱、幻觉以及对文本线索过度依赖的问题。苹果、哈佛大学和OpenAI的研究人员联合发表了一篇论文,系统性地研究了这些脆弱性。

研究团队通过引入简单的、可控的文本扰动——例如误导性标注或错误的思维链(CoT)轨迹——来测试VLM的鲁棒性。结果表明,这些扰动会导致模型鲁棒性和置信度显著下降,且当考虑CoT一致性时,这种影响在多模态开源推理模型中更为突出。相比之下,封闭模型(如OpenAI的专有模型)虽然呈现类似的失败模式,但表现出更强的鲁棒性和推理一致性。这表明差距源于当前开源RL微调方法的不足,而非任务本身的固有限制。

进一步分析RL微调动态揭示了准确性与忠实性之间的权衡:微调提高了基准准确率,但可能同时侵蚀CoT的可靠性及其对上下文变化的鲁棒性。尽管对抗性增强可提升鲁棒性,但它本身无法防止忠实性漂移。引入忠实性感知奖励可恢复答案与推理之间的对齐,但与增强结合时,训练可能陷入捷径策略,鲁棒性仍难以实现。

这些发现凸显了仅以准确性评估的局限性,并呼吁在训练和评估中同时关注正确性、鲁棒性以及视觉基础推理的忠实性。该论文已在2026年7月发表,相关研究还包括对CoT轨迹动态的深入分析以及提升VLM CoT推理的两阶段训练方法。