AI News HubLIVE
站內改寫1 分鐘閱讀

MER-R1:通過快慢思維協同進行多模態情感推理

研究發現,顯式推理並不一定能提高多模態情感識別(MER)的準確性,但能使預測更具可解釋性。在基於推理的多模態大語言模型中,直接回答的快思維往往優於經過深思熟慮的慢思維。快思維通過更廣泛和更自信的預測提高召回率,而慢思維通過保守過濾錯誤類別偏向精確度。基於此,提出MER-R1,一種強化學習框架,將快慢互補轉化為顯式優化。通過雙目標解耦將召回率和精確度分離為兩個優化信號,並利用快慢置信度校準統一最終答案,在MER-UniBench和MME-Emotion上取得最優性能。

來源arXiv AI作者: Zhiyuan Han, Beier Zhu, Wenwen Tong, Chengwei Qin, Xinyi Wang, Jiayu Zhang, Jiangnan Chen, Hewei Guo, Dongchuan Ran, Lewei Lu, Xun Yang

多模態情感識別(MER)在人工智能領域具有重要意義,它旨在從多種模態(如文本、語音、面部表情)中識別人類情感。然而,如何有效結合推理能力來提升MER性能一直是一個挑戰。近日,研究團隊在arXiv上提交了一篇論文,提出了MER-R1框架,通過快慢思維協同實現更優的情感識別性能。該論文目前正在審稿中。

研究發現,在基於推理的多模態大語言模型(MLLMs)中,顯式推理雖然增強了預測的可解釋性,但未必能提升識別準確率。具體而言,直接給出答案的快思維往往比經過深思熟慮的慢思維表現更好。通過實證分析,研究人員發現快思維能夠提供更廣泛且更自信的預測,從而提高召回率;而慢思維則通過保守篩選錯誤類別來提升精確度。這兩種思維模式各有優劣,但傳統方法往往需要在召回率和精確度之間進行權衡。

基於這一觀察,研究人員提出了MER-R1,一個強化學習框架,旨在將快慢思維的互補性轉化為明確的優化目標。該框架引入了雙目標解耦技術,將召回率和精確度分離為兩個獨立的優化信號,從而能夠聯合優化而不必相互權衡。此外,快慢置信度校準機制進一步將最終的慢思維答案與快思維直覺對齊,增強正確情感的同時抑制錯誤情感。這種校準機制確保了最終答案既保留了快思維的廣泛覆蓋能力,又具備了慢思維的高精確度選擇性。

理論分析表明,這種協同作用能夠減輕優化過程中方差引起的干擾,使得訓練更加穩定。在MER-UniBench和MME-Emotion等基準數據集上的廣泛實驗顯示,MER-R1取得了最先進的性能,使推理真正有益於情感識別。這些結果證明了快慢思維協同在MER任務中的有效性,也為未來多模態情感分析研究提供了新方向。研究還指出,該框架可推廣至其他需要平衡召回率和精確度的任務,例如細粒度情感識別或情感對話系統。