2026-06-29 12:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-29 15:52 UTC+8

MER-R1：通過快慢思維協同進行多模態情感推理

研究發現，顯式推理並不一定能提高多模態情感識別（MER）的準確性，但能使預測更具可解釋性。在基於推理的多模態大語言模型中，直接回答的快思維往往優於經過深思熟慮的慢思維。快思維通過更廣泛和更自信的預測提高召回率，而慢思維通過保守過濾錯誤類別偏向精確度。基於此，提出MER-R1，一種強化學習框架，將快慢互補轉化為顯式優化。通過雙目標解耦將召回率和精確度分離為兩個優化信號，並利用快慢置信度校準統一最終答案，在MER-UniBench和MME-Emotion上取得最優性能。

來源arXiv AI作者: Zhiyuan Han, Beier Zhu, Wenwen Tong, Chengwei Qin, Xinyi Wang, Jiayu Zhang, Jiangnan Chen, Hewei Guo, Dongchuan Ran, Lewei Lu, Xun Yang

多模態情感識別（MER）在人工智能領域具有重要意義，它旨在從多種模態（如文本、語音、面部表情）中識別人類情感。然而，如何有效結合推理能力來提升MER性能一直是一個挑戰。近日，研究團隊在arXiv上提交了一篇論文，提出了MER-R1框架，通過快慢思維協同實現更優的情感識別性能。該論文目前正在審稿中。

研究發現，在基於推理的多模態大語言模型（MLLMs）中，顯式推理雖然增強了預測的可解釋性，但未必能提升識別準確率。具體而言，直接給出答案的快思維往往比經過深思熟慮的慢思維表現更好。通過實證分析，研究人員發現快思維能夠提供更廣泛且更自信的預測，從而提高召回率；而慢思維則通過保守篩選錯誤類別來提升精確度。這兩種思維模式各有優劣，但傳統方法往往需要在召回率和精確度之間進行權衡。

基於這一觀察，研究人員提出了MER-R1，一個強化學習框架，旨在將快慢思維的互補性轉化為明確的優化目標。該框架引入了雙目標解耦技術，將召回率和精確度分離為兩個獨立的優化信號，從而能夠聯合優化而不必相互權衡。此外，快慢置信度校準機制進一步將最終的慢思維答案與快思維直覺對齊，增強正確情感的同時抑制錯誤情感。這種校準機制確保了最終答案既保留了快思維的廣泛覆蓋能力，又具備了慢思維的高精確度選擇性。

理論分析表明，這種協同作用能夠減輕優化過程中方差引起的干擾，使得訓練更加穩定。在MER-UniBench和MME-Emotion等基準數據集上的廣泛實驗顯示，MER-R1取得了最先進的性能，使推理真正有益於情感識別。這些結果證明了快慢思維協同在MER任務中的有效性，也為未來多模態情感分析研究提供了新方向。研究還指出，該框架可推廣至其他需要平衡召回率和精確度的任務，例如細粒度情感識別或情感對話系統。