輕量級互補線索融合用於魯棒視頻人臉偽造檢測
本文提出兩種輕量級人臉偽造檢測模型LFWS和LFWL,通過在Xception基線基礎上添加僅292參數的融合模塊,分別結合小波去噪特徵與相位譜或局部二值模式,在多個基準上提升AUC 3-4%,超越更大模型。
文章情報
要點
- 基於Xception(2190萬參數)構建的LFWS和LFWL僅增加292參數,總參數仍為2190萬,小於F3Net和SRM。
- 在FaceForensics++和DFDC-Preview上,AUC分別提升3.8%和4.4%,達到78.6%和74.9%。
- 在八個公共基準上一致優於F3Net、SRM和SPSL,無需額外數據或測試時增強。
- 結果表明精心配對的手工特徵通過輕量融合可提供競爭力,挑戰了依賴大規模模型的設計思路。
為甚麼重要
這條新聞值得關注,因為基於Xception(2190萬參數)構建的LFWS和LFWL僅增加292參數,總參數仍為2190萬,小於F3Net和SRM。
技術影響
可能影響模型選型、推理成本、產品能力和評測基準。
近日,由Sunghwan Baek等四位作者提交至arXiv的論文(編號2605.29092)提出了一種新穎的輕量級人臉視頻偽造檢測方法。當前多數檢測器採用寬或雙流骨幹網絡,而研究團隊證明,通過簡單融合兩種手工設計的線索,可以在更小的模型上獲得更高精度。該論文共13頁,包含6張圖和3張表,系統性地展示了其方法的有效性。
基於Xception基線模型(2190萬個參數),作者構建了兩個檢測器:LFWS和LFWL。LFWS通過1×1卷積將低頻小波去噪特徵(WDF)與來自空間相位淺層學習(SPSL)的相位譜通道結合;LFWL則以相同方式融合WDF與局部二值模式(LBP)。這一額外模塊僅增加292個參數,總參數維持在2190萬,小於F3Net(2250萬)且不到SRM(5530萬)的一半。即使如此微小的開銷,融合模型在FaceForensics++上的平均AUC從74.8%提升至78.6%,在DFDC-Preview上從70.5%提升至74.9%,分別提升了3.8%和4.4%。此外,它們在八個公共基準測試中一致優於F3Net、SRM和SPSL,無需使用額外數據或測試時增強。這些結果説明,通過輕量融合塊適當配對的手工特徵,能夠以顯著低於同類頻率檢測器的成本提供具有競爭力的魯棒性。
該研究的核心貢獻在於挑戰了當前以模型規模為導向的設計趨勢。作者指出,精心選擇的互補性手工特徵(如WDF與相位譜或LBP)通過極輕量的融合即可超越大模型,提示研究社區在視頻人臉偽造檢測中應重新評估對寬度和深度的過度依賴。這一發現對於部署在資源受限環境(如移動設備)中的實時檢測系統具有重要價值。