面向生理訊號多模態情感識別的深度時間建模與整合融合
該研究評估了LSTM、TCN和Transformer等深度學習模型在WESAD資料集上利用手腕和胸部感測器訊號進行多模態情感識別的效果。消融實驗表明,Transformer在多模態設定下準確率最高,TCN在僅手腕資料下表現最佳。整合方法結合三種架構的預測,達到了98.91%的準確率和98.56%的宏F1分數。
近日,一項發表在ACM BCB 2026上的重要研究對基於生理訊號的多模態情感識別進行了深入探索。該研究由Desta Haileselassie Hagos及其合作者共同完成,論文題目為《Deep Temporal Modeling and Ensemble Fusion for Multimodal Emotion Recognition from Physiological Signals》。研究團隊利用公開的WESAD資料集,系統評估了三種主流深度學習模型——長短期記憶網路(LSTM)、時間卷積網路(TCN)和Transformer——在結合手腕和胸部感測器訊號時的情感識別能力。
為了解各模態的獨立貢獻,研究者設計了消融實驗,分別訓練了僅使用手腕訊號和僅使用胸部訊號的模型。此外,他們還實現了兩種融合策略:早期融合(在感測器層面直接拼接手腕和胸部訊號)和晚期融合(整合三種架構的預測結果)。實驗結果顯示,在多模態輸入下,Transformer模型一致取得了最高的準確率;而在僅使用手腕訊號時,TCN模型表現最佳。值得注意的是,採用晚期融合的整合方法綜合了三種模型的優勢,取得了98.91%的準確率和98.56%的宏F1分數,均優於任何單一模型。
該研究的重要意義在於,它全面驗證了感測器融合和整合融合策略在開發魯棒的生理情感識別系統中的有效性。這些發現為健康監測和情感計算領域提供了重要的技術參考,表明結合不同感測器模態和模型整合能夠顯著提升情感識別的效能。研究團隊使用的WESAD資料集包含了多種生理訊號,如心率、皮膚電導等,為模型的訓練和評估提供了豐富的資料支援。
總之,這項研究不僅展示了深度學習模型在生理訊號情感識別中的潛力,還明確指出了多模態融合和模型整合的優勢。未來,該方向有望推動可穿戴裝置在心理健康監測、壓力管理等方面的實際應用。論文已被ACM BCB 2026接收,相關程式碼和資料預計將公開,以促進該領域的進一步研究。