生理信号によるマルチモーダル感情認識のための深層時間モデリングとアンサンブル融合
本研究では、WESADデータセットを用いて、手首と胸のセンサー信号によるマルチモーダル感情認識において、LSTM、TCN、Transformerを評価。Transformerはマルチモーダル設定で最高精度、TCNは手首のみで最良。アンサンブル法(後期融合)は98.91%の精度と98.56%のマクロF1を達成。
最近、ACM BCB 2026で発表された研究が、生理信号に基づくマルチモーダル感情認識を詳細に調査しました。Desta Haileselassie Hagos氏らによるこの研究では、公開データセットWESADを使用し、LSTM、TCN、Transformerの3つの深層学習モデルを、手首と胸のセンサー信号を組み合わせた際の感情認識能力について体系的に評価しました。
各モダリティの個別の貢献を評価するため、研究者らはアブレーション研究を実施し、手首のみまたは胸のみの信号でモデルを訓練しました。さらに、初期融合(センサーレベルで手首と胸の信号を連結)と後期融合(3つのアーキテクチャの予測を統合)の2つの融合戦略を実装しました。結果として、マルチモーダル入力ではTransformerモデルが一貫して最高の精度を示し、手首のみのデータではTCNモデルが最良の性能を発揮しました。特に注目すべきは、後期融合によるアンサンブル手法が3つのモデルの利点を統合し、98.91%の精度と98.56%のマクロF1スコアを達成したことです。これはどの単一モデルよりも優れています。
この研究の重要な意義は、センサー融合とアンサンブル融合戦略が、ロバストな生理的感情認識システムの開発に有効であることを実証した点にあります。これらの発見は、ヘルスモニタリングやアフェクティブコンピューティングの分野に重要な技術的知見を提供し、異なるセンサーモダリティとモデル統合を組み合わせることで感情認識の性能を大幅に向上できることを示しています。研究チームが使用したWESADデータセットには、心拍数や皮膚コンダクタンスなどの多様な生理信号が含まれており、モデルの訓練と評価に豊富なデータを提供しています。
全体として、この研究は深層学習モデルが生理信号からの感情認識に持つ可能性を示すとともに、マルチモーダル融合とモデル統合の利点を明確に指摘しています。今後、この方向性はウェアラブルデバイスによるメンタルヘルスモニタリングやストレス管理などの実用的応用を促進することが期待されます。論文はACM BCB 2026に採択されており、関連するコードやデータは公開される予定で、当該分野のさらなる研究を促進するものと考えられます。