AI News HubLIVE
站内改写

轻量级互补线索融合用于鲁棒视频人脸伪造检测

本文提出两种轻量级人脸伪造检测模型LFWS和LFWL,通过在Xception基线基础上添加仅292参数的融合模块,分别结合小波去噪特征与相位谱或局部二值模式,在多个基准上提升AUC 3-4%,超越更大模型。

文章情报

工程师进阶

要点

  • 基于Xception(2190万参数)构建的LFWS和LFWL仅增加292参数,总参数仍为2190万,小于F3Net和SRM。
  • 在FaceForensics++和DFDC-Preview上,AUC分别提升3.8%和4.4%,达到78.6%和74.9%。
  • 在八个公共基准上一致优于F3Net、SRM和SPSL,无需额外数据或测试时增强。
  • 结果表明精心配对的手工特征通过轻量融合可提供竞争力,挑战了依赖大规模模型的设计思路。

为什么重要

这条新闻值得关注,因为基于Xception(2190万参数)构建的LFWS和LFWL仅增加292参数,总参数仍为2190万,小于F3Net和SRM。

技术影响

可能影响模型选型、推理成本、产品能力和评测基准。

近日,由Sunghwan Baek等四位作者提交至arXiv的论文(编号2605.29092)提出了一种新颖的轻量级人脸视频伪造检测方法。当前多数检测器采用宽或双流骨干网络,而研究团队证明,通过简单融合两种手工设计的线索,可以在更小的模型上获得更高精度。该论文共13页,包含6张图和3张表,系统性地展示了其方法的有效性。

基于Xception基线模型(2190万个参数),作者构建了两个检测器:LFWS和LFWL。LFWS通过1×1卷积将低频小波去噪特征(WDF)与来自空间相位浅层学习(SPSL)的相位谱通道结合;LFWL则以相同方式融合WDF与局部二值模式(LBP)。这一额外模块仅增加292个参数,总参数维持在2190万,小于F3Net(2250万)且不到SRM(5530万)的一半。即使如此微小的开销,融合模型在FaceForensics++上的平均AUC从74.8%提升至78.6%,在DFDC-Preview上从70.5%提升至74.9%,分别提升了3.8%和4.4%。此外,它们在八个公共基准测试中一致优于F3Net、SRM和SPSL,无需使用额外数据或测试时增强。这些结果说明,通过轻量融合块适当配对的手工特征,能够以显著低于同类频率检测器的成本提供具有竞争力的鲁棒性。

该研究的核心贡献在于挑战了当前以模型规模为导向的设计趋势。作者指出,精心选择的互补性手工特征(如WDF与相位谱或LBP)通过极轻量的融合即可超越大模型,提示研究社区在视频人脸伪造检测中应重新评估对宽度和深度的过度依赖。这一发现对于部署在资源受限环境(如移动设备)中的实时检测系统具有重要价值。