2026-05-29 12:00 UTC+8站内改写1 分钟阅读更新: 2026-06-30 21:03 UTC+8

轻量级互补线索融合用于鲁棒视频人脸伪造检测

本文提出两种轻量级人脸伪造检测模型LFWS和LFWL，通过在Xception基线基础上添加仅292参数的融合模块，分别结合小波去噪特征与相位谱或局部二值模式，在多个基准上提升AUC 3-4%，超越更大模型。

来源arXiv Computer Vision作者: Sunghwan Baek, Tariq Anwaar, Karanveer Singh, Rita Singh

近日，由Sunghwan Baek等四位作者提交至arXiv的论文（编号2605.29092）提出了一种新颖的轻量级人脸视频伪造检测方法。当前多数检测器采用宽或双流骨干网络，而研究团队证明，通过简单融合两种手工设计的线索，可以在更小的模型上获得更高精度。该论文共13页，包含6张图和3张表，系统性地展示了其方法的有效性。

基于Xception基线模型（2190万个参数），作者构建了两个检测器：LFWS和LFWL。LFWS通过1×1卷积将低频小波去噪特征（WDF）与来自空间相位浅层学习（SPSL）的相位谱通道结合；LFWL则以相同方式融合WDF与局部二值模式（LBP）。这一额外模块仅增加292个参数，总参数维持在2190万，小于F3Net（2250万）且不到SRM（5530万）的一半。即使如此微小的开销，融合模型在FaceForensics++上的平均AUC从74.8%提升至78.6%，在DFDC-Preview上从70.5%提升至74.9%，分别提升了3.8%和4.4%。此外，它们在八个公共基准测试中一致优于F3Net、SRM和SPSL，无需使用额外数据或测试时增强。这些结果说明，通过轻量融合块适当配对的手工特征，能够以显著低于同类频率检测器的成本提供具有竞争力的鲁棒性。

该研究的核心贡献在于挑战了当前以模型规模为导向的设计趋势。作者指出，精心选择的互补性手工特征（如WDF与相位谱或LBP）通过极轻量的融合即可超越大模型，提示研究社区在视频人脸伪造检测中应重新评估对宽度和深度的过度依赖。这一发现对于部署在资源受限环境（如移动设备）中的实时检测系统具有重要价值。