AI News HubLIVE
站内改写1 分钟阅读

MER-R1:通过快慢思维协同进行多模态情感推理

研究发现,显式推理并不一定能提高多模态情感识别(MER)的准确性,但能使预测更具可解释性。在基于推理的多模态大语言模型中,直接回答的快思维往往优于经过深思熟虑的慢思维。快思维通过更广泛和更自信的预测提高召回率,而慢思维通过保守过滤错误类别偏向精确度。基于此,提出MER-R1,一种强化学习框架,将快慢互补转化为显式优化。通过双目标解耦将召回率和精确度分离为两个优化信号,并利用快慢置信度校准统一最终答案,在MER-UniBench和MME-Emotion上取得最优性能。

来源arXiv AI作者: Zhiyuan Han, Beier Zhu, Wenwen Tong, Chengwei Qin, Xinyi Wang, Jiayu Zhang, Jiangnan Chen, Hewei Guo, Dongchuan Ran, Lewei Lu, Xun Yang

多模态情感识别(MER)在人工智能领域具有重要意义,它旨在从多种模态(如文本、语音、面部表情)中识别人类情感。然而,如何有效结合推理能力来提升MER性能一直是一个挑战。近日,研究团队在arXiv上提交了一篇论文,提出了MER-R1框架,通过快慢思维协同实现更优的情感识别性能。该论文目前正在审稿中。

研究发现,在基于推理的多模态大语言模型(MLLMs)中,显式推理虽然增强了预测的可解释性,但未必能提升识别准确率。具体而言,直接给出答案的快思维往往比经过深思熟虑的慢思维表现更好。通过实证分析,研究人员发现快思维能够提供更广泛且更自信的预测,从而提高召回率;而慢思维则通过保守筛选错误类别来提升精确度。这两种思维模式各有优劣,但传统方法往往需要在召回率和精确度之间进行权衡。

基于这一观察,研究人员提出了MER-R1,一个强化学习框架,旨在将快慢思维的互补性转化为明确的优化目标。该框架引入了双目标解耦技术,将召回率和精确度分离为两个独立的优化信号,从而能够联合优化而不必相互权衡。此外,快慢置信度校准机制进一步将最终的慢思维答案与快思维直觉对齐,增强正确情感的同时抑制错误情感。这种校准机制确保了最终答案既保留了快思维的广泛覆盖能力,又具备了慢思维的高精确度选择性。

理论分析表明,这种协同作用能够减轻优化过程中方差引起的干扰,使得训练更加稳定。在MER-UniBench和MME-Emotion等基准数据集上的广泛实验显示,MER-R1取得了最先进的性能,使推理真正有益于情感识别。这些结果证明了快慢思维协同在MER任务中的有效性,也为未来多模态情感分析研究提供了新方向。研究还指出,该框架可推广至其他需要平衡召回率和精确度的任务,例如细粒度情感识别或情感对话系统。