2026-07-02 08:00 UTC+8站内改写1 分钟阅读更新: 2026-07-03 01:33 UTC+8

关于强化学习微调视觉语言模型的鲁棒性与思维链一致性

强化学习微调提升了视觉语言模型在推理基准上的表现，但研究发现模型在面对误导性标注或错误思维链时鲁棒性显著下降。封闭模型比开源模型更鲁棒，且存在准确性与忠实性之间的权衡。仅靠对抗性增强不足以解决问题，引入忠实性奖励可改善对齐，但可能引发捷径学习。

来源Apple Machine Learning Research

强化学习（RL）微调已成为提升大语言模型（LLM）推理能力的关键技术，并正被扩展至视觉语言模型（VLM）。然而，尽管RL微调后的VLM在视觉推理基准上表现提升，它们仍然存在视觉基础薄弱、幻觉以及对文本线索过度依赖的问题。苹果、哈佛大学和OpenAI的研究人员联合发表了一篇论文，系统性地研究了这些脆弱性。

研究团队通过引入简单的、可控的文本扰动——例如误导性标注或错误的思维链（CoT）轨迹——来测试VLM的鲁棒性。结果表明，这些扰动会导致模型鲁棒性和置信度显著下降，且当考虑CoT一致性时，这种影响在多模态开源推理模型中更为突出。相比之下，封闭模型（如OpenAI的专有模型）虽然呈现类似的失败模式，但表现出更强的鲁棒性和推理一致性。这表明差距源于当前开源RL微调方法的不足，而非任务本身的固有限制。

进一步分析RL微调动态揭示了准确性与忠实性之间的权衡：微调提高了基准准确率，但可能同时侵蚀CoT的可靠性及其对上下文变化的鲁棒性。尽管对抗性增强可提升鲁棒性，但它本身无法防止忠实性漂移。引入忠实性感知奖励可恢复答案与推理之间的对齐，但与增强结合时，训练可能陷入捷径策略，鲁棒性仍难以实现。

这些发现凸显了仅以准确性评估的局限性，并呼吁在训练和评估中同时关注正确性、鲁棒性以及视觉基础推理的忠实性。该论文已在2026年7月发表，相关研究还包括对CoT轨迹动态的深入分析以及提升VLM CoT推理的两阶段训练方法。