AI News HubLIVE
站內改寫1 分鐘閱讀

關於強化學習微調視覺語言模型的魯棒性與思維鏈一致性

強化學習微調提升了視覺語言模型在推理基準上的表現,但研究發現模型在面對誤導性標註或錯誤思維鏈時魯棒性顯著下降。封閉模型比開源模型更魯棒,且存在準確性與忠實性之間的權衡。僅靠對抗性增強不足以解決問題,引入忠實性獎勵可改善對齊,但可能引發捷徑學習。

強化學習(RL)微調已成為提升大語言模型(LLM)推理能力的關鍵技術,並正被擴充套件至視覺語言模型(VLM)。然而,儘管RL微調後的VLM在視覺推理基準上表現提升,它們仍然存在視覺基礎薄弱、幻覺以及對文本線索過度依賴的問題。蘋果、哈佛大學和OpenAI的研究人員聯合發表了一篇論文,系統性地研究了這些脆弱性。

研究團隊透過引入簡單的、可控的文本擾動——例如誤導性標註或錯誤的思維鏈(CoT)軌跡——來測試VLM的魯棒性。結果表明,這些擾動會導致模型魯棒性和置信度顯著下降,且當考慮CoT一致性時,這種影響在多模態開源推理模型中更為突出。相比之下,封閉模型(如OpenAI的專有模型)雖然呈現類似的失敗模式,但表現出更強的魯棒性和推理一致性。這表明差距源於當前開源RL微調方法的不足,而非任務本身的固有限制。

進一步分析RL微調動態揭示了準確性與忠實性之間的權衡:微調提高了基準準確率,但可能同時侵蝕CoT的可靠性及其對上下文變化的魯棒性。儘管對抗性增強可提升魯棒性,但它本身無法防止忠實性漂移。引入忠實性感知獎勵可恢復答案與推理之間的對齊,但與增強結合時,訓練可能陷入捷徑策略,魯棒性仍難以實現。

這些發現凸顯了僅以準確性評估的侷限性,並呼籲在訓練和評估中同時關注正確性、魯棒性以及視覺基礎推理的忠實性。該論文已在2026年7月發表,相關研究還包括對CoT軌跡動態的深入分析以及提升VLM CoT推理的兩階段訓練方法。