2026-06-16站内改写1 分钟阅读更新: 2026-06-16

面向生理信号多模态情感识别的深度时间建模与集成融合

该研究评估了LSTM、TCN和Transformer等深度学习模型在WESAD数据集上利用手腕和胸部传感器信号进行多模态情感识别的效果。消融实验表明，Transformer在多模态设置下准确率最高，TCN在仅手腕数据下表现最佳。集成方法结合三种架构的预测，达到了98.91%的准确率和98.56%的宏F1分数。

来源arXiv Computational Linguistics作者: Desta Haileselassie Hagos, Saurav Keshari Aryal, Patrick Ymele-Leki, Anietie Andy, Legand L. Burge

近日，一项发表在ACM BCB 2026上的重要研究对基于生理信号的多模态情感识别进行了深入探索。该研究由Desta Haileselassie Hagos及其合作者共同完成，论文题目为《Deep Temporal Modeling and Ensemble Fusion for Multimodal Emotion Recognition from Physiological Signals》。研究团队利用公开的WESAD数据集，系统评估了三种主流深度学习模型——长短期记忆网络（LSTM）、时间卷积网络（TCN）和Transformer——在结合手腕和胸部传感器信号时的情感识别能力。

为了解各模态的独立贡献，研究者设计了消融实验，分别训练了仅使用手腕信号和仅使用胸部信号的模型。此外，他们还实现了两种融合策略：早期融合（在传感器层面直接拼接手腕和胸部信号）和晚期融合（集成三种架构的预测结果）。实验结果显示，在多模态输入下，Transformer模型一致取得了最高的准确率；而在仅使用手腕信号时，TCN模型表现最佳。值得注意的是，采用晚期融合的集成方法综合了三种模型的优势，取得了98.91%的准确率和98.56%的宏F1分数，均优于任何单一模型。

该研究的重要意义在于，它全面验证了传感器融合和集成融合策略在开发鲁棒的生理情感识别系统中的有效性。这些发现为健康监测和情感计算领域提供了重要的技术参考，表明结合不同传感器模态和模型集成能够显著提升情感识别的性能。研究团队使用的WESAD数据集包含了多种生理信号，如心率、皮肤电导等，为模型的训练和评估提供了丰富的数据支持。

总之，这项研究不仅展示了深度学习模型在生理信号情感识别中的潜力，还明确指出了多模态融合和模型集成的优势。未来，该方向有望推动可穿戴设备在心理健康监测、压力管理等方面的实际应用。论文已被ACM BCB 2026接收，相关代码和数据预计将公开，以促进该领域的进一步研究。