2026-06-29 12:00 UTC+8站内改写1 分钟阅读更新: 2026-06-29 15:52 UTC+8

MER-R1：通过快慢思维协同进行多模态情感推理

研究发现，显式推理并不一定能提高多模态情感识别（MER）的准确性，但能使预测更具可解释性。在基于推理的多模态大语言模型中，直接回答的快思维往往优于经过深思熟虑的慢思维。快思维通过更广泛和更自信的预测提高召回率，而慢思维通过保守过滤错误类别偏向精确度。基于此，提出MER-R1，一种强化学习框架，将快慢互补转化为显式优化。通过双目标解耦将召回率和精确度分离为两个优化信号，并利用快慢置信度校准统一最终答案，在MER-UniBench和MME-Emotion上取得最优性能。

来源arXiv AI作者: Zhiyuan Han, Beier Zhu, Wenwen Tong, Chengwei Qin, Xinyi Wang, Jiayu Zhang, Jiangnan Chen, Hewei Guo, Dongchuan Ran, Lewei Lu, Xun Yang

多模态情感识别（MER）在人工智能领域具有重要意义，它旨在从多种模态（如文本、语音、面部表情）中识别人类情感。然而，如何有效结合推理能力来提升MER性能一直是一个挑战。近日，研究团队在arXiv上提交了一篇论文，提出了MER-R1框架，通过快慢思维协同实现更优的情感识别性能。该论文目前正在审稿中。

研究发现，在基于推理的多模态大语言模型（MLLMs）中，显式推理虽然增强了预测的可解释性，但未必能提升识别准确率。具体而言，直接给出答案的快思维往往比经过深思熟虑的慢思维表现更好。通过实证分析，研究人员发现快思维能够提供更广泛且更自信的预测，从而提高召回率；而慢思维则通过保守筛选错误类别来提升精确度。这两种思维模式各有优劣，但传统方法往往需要在召回率和精确度之间进行权衡。

基于这一观察，研究人员提出了MER-R1，一个强化学习框架，旨在将快慢思维的互补性转化为明确的优化目标。该框架引入了双目标解耦技术，将召回率和精确度分离为两个独立的优化信号，从而能够联合优化而不必相互权衡。此外，快慢置信度校准机制进一步将最终的慢思维答案与快思维直觉对齐，增强正确情感的同时抑制错误情感。这种校准机制确保了最终答案既保留了快思维的广泛覆盖能力，又具备了慢思维的高精确度选择性。

理论分析表明，这种协同作用能够减轻优化过程中方差引起的干扰，使得训练更加稳定。在MER-UniBench和MME-Emotion等基准数据集上的广泛实验显示，MER-R1取得了最先进的性能，使推理真正有益于情感识别。这些结果证明了快慢思维协同在MER任务中的有效性，也为未来多模态情感分析研究提供了新方向。研究还指出，该框架可推广至其他需要平衡召回率和精确度的任务，例如细粒度情感识别或情感对话系统。