2026-07-02 08:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-07-03 01:33 UTC+8

關於強化學習微調視覺語言模型的魯棒性與思維鏈一致性

強化學習微調提升了視覺語言模型在推理基準上的表現，但研究發現模型在面對誤導性標註或錯誤思維鏈時魯棒性顯著下降。封閉模型比開源模型更魯棒，且存在準確性與忠實性之間的權衡。僅靠對抗性增強不足以解決問題，引入忠實性獎勵可改善對齊，但可能引發捷徑學習。

來源Apple Machine Learning Research

強化學習（RL）微調已成為提升大語言模型（LLM）推理能力的關鍵技術，並正被擴充套件至視覺語言模型（VLM）。然而，儘管RL微調後的VLM在視覺推理基準上表現提升，它們仍然存在視覺基礎薄弱、幻覺以及對文本線索過度依賴的問題。蘋果、哈佛大學和OpenAI的研究人員聯合發表了一篇論文，系統性地研究了這些脆弱性。

研究團隊透過引入簡單的、可控的文本擾動——例如誤導性標註或錯誤的思維鏈（CoT）軌跡——來測試VLM的魯棒性。結果表明，這些擾動會導致模型魯棒性和置信度顯著下降，且當考慮CoT一致性時，這種影響在多模態開源推理模型中更為突出。相比之下，封閉模型（如OpenAI的專有模型）雖然呈現類似的失敗模式，但表現出更強的魯棒性和推理一致性。這表明差距源於當前開源RL微調方法的不足，而非任務本身的固有限制。

進一步分析RL微調動態揭示了準確性與忠實性之間的權衡：微調提高了基準準確率，但可能同時侵蝕CoT的可靠性及其對上下文變化的魯棒性。儘管對抗性增強可提升魯棒性，但它本身無法防止忠實性漂移。引入忠實性感知獎勵可恢復答案與推理之間的對齊，但與增強結合時，訓練可能陷入捷徑策略，魯棒性仍難以實現。

這些發現凸顯了僅以準確性評估的侷限性，並呼籲在訓練和評估中同時關注正確性、魯棒性以及視覺基礎推理的忠實性。該論文已在2026年7月發表，相關研究還包括對CoT軌跡動態的深入分析以及提升VLM CoT推理的兩階段訓練方法。