AI News HubLIVE
サイト内リライト2 分で読了

CPG-PAD: 概念に基づくプロンプトによるプレゼンテーションアタック検出

CPG-PADフレームワークは、モデルレベルの概念ガイダンスをプロンプト学習に導入し、プレゼンテーションアタック検出のクロスドメイン一般化を向上させる。説明可能AIを用いて攻撃関連の視覚概念を自動発見し、プロンプト空間に注入することで、9つのベンチマークデータセットで最先端の性能を達成。

ソースarXiv Computer Vision著者: Haoyuan Zhang, Xiangyu Zhu, Li Gao, Ajian Liu, Siran Peng, Zhen Lei

プレゼンテーションアタック検出(PAD)は、顔認識システムを印刷写真、再生動画、3Dマスクなどの攻撃から保護する重要な防御策です。大幅な進歩があったにもかかわらず、既存のPADモデルはセンサー、照明、攻撃素材のばらつきにより、未知のドメインへの一般化に依然として苦戦しています。近年のVision-Language Model(VLM)は強力な一般化能力を示していますが、PADへの応用は限定的です。学習されたプロンプトは通常、クラスラベルの監視下で最適化されるため、攻撃に関連する細かい視覚意味と明示的に整合せず、ドメイン固有のアーティファクトに過適合し、転移可能な攻撃手がかりを捉えられません。

この問題に対処するため、研究者らはCPG-PAD(Concept-Informed Prompts Guided Presentation Attack Detection)フレームワークを提案しました。これは、モデルレベルの概念ガイダンスをプロンプト学習プロセスに導入するものです。具体的には、Visual Concept-driven Enhancement(VCE)モジュールが説明可能AI(XAI)技術を用いてPADに関連する視覚概念を自動的に発見し、局所的な細かいガイダンスを提供する概念関連ヒートマップを生成します。これらのヒートマップに導かれて、Prompt-based Concept Injection(PCI)メカニズムがVisual-Prompt Decoder(VPD)と概念マッピング損失を介してこれらの概念をプロンプト空間に統合し、プロンプトをモデルの内部概念空間と整合させます。

この設計により、CPG-PADは一般化可能でドメイン不変の攻撃手がかりを捉え、データセット固有のバイアスを効果的に抑制できます。9つのベンチマークデータセットにわたる広範な実験により、CPG-PADはマルチソース、限定的ソース、シングルソース設定のすべてにおいて、一貫して最先端のクロスドメイン性能を達成することが示されました。本研究成果は、IEEE Transactions on Information Forensics & Security(TIFS)に採択されています。

CPG-PADの主な貢献は、モデルレベルの概念ガイダンスが細かい視覚タスクにおけるプロンプト学習の有効性を大幅に向上できることを実証した点です。XAIによって自動発見された概念は説明可能性を提供するだけでなく、モデルの一般化能力を強化します。今後の研究では、概念ガイダンスを他の視覚タスクに拡張したり、さらに多くのモーダル情報を組み込んで検出のロバスト性を高めることが期待されます。