2026-06-09站内改写1 分钟阅读更新: 2026-06-09

面向隐私安全的非个体化野外多模态群体情感识别

该博士论文提出两种隐私保护框架，利用集体音视频信号推断群体情绪，避免个体监控风险。第一种采用交叉注意力融合与帧注意力池化，第二种变分编码器多解码器学习共享潜空间。实验表明无需个体特征即可达竞争性能。

来源arXiv Computer Vision作者: Anderson Augusma

2026年5月27日，Anderson Augusma在arXiv提交了一篇博士论文，题为“Multimodal Group Emotion Recognition In-the-Wild Towards a Privacy-Safe Non-Individual Approach”，旨在解决真实场景下的群体情感识别（GER）问题，同时注重隐私保护。传统情感识别方法依赖个体层面的线索（如面部表情、视线或语音分析），容易引发监控和隐私风险。该工作另辟蹊径，仅使用群体整体的音频和视频信号来推断情绪，从而降低个体监视的风险。

论文提出了两个互补的框架。第一个框架是一种交叉注意力多模态架构，用于音视频融合，并结合帧注意力池化（Frames Attention Pooling, FAP）进行时间上的聚合。该框架通过合成数据增强进行训练，并通过消融研究验证，在真实世界的GER条件下展现出鲁棒性。第二个框架名为变分编码器多解码器（Variational Encoder Multi-Decoder, VE-MD），它学习一个共享的潜在空间，同时用于情感分类和结构表示预测（包括身体和面部线索）。为了分析结构表示在群体和个体情境中的作用，论文探索了两种解码策略：基于DETR的方法和基于热图的方法。

该论文有三个主要贡献：首先，阐明了多模态和结构线索在群体级情感计算中的作用；其次，引入了两种用于隐私保护多模态GER的架构；最后，展示了即使不使用个体特征作为输入数据，也能获得有竞争力的表现。这项研究为在不侵犯个人隐私的前提下进行公共场合的情感分析开辟了新途径，对人工智能伦理和实际应用具有重要意义。