2026-06-29 12:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-29 16:14 UTC+8

TruEye：圖像中AI生成人物的細粒度檢測

TruEye是一種新型模型，能夠細粒度檢測和定位AI生成或篡改的人像和場景，區分五種合成內容類別，比現有方法更快更準，且無需大型語言模型。

來源arXiv Computer Vision作者: Jay Barot, Dan Lin

隨着AI生成圖像技術在互聯網上的泛濫，其中一些被用於娛樂，而另一些則被武器化，用於對社交媒體用户進行欺詐和社會工程攻擊。現有的檢測器存在諸多侷限：它們往往過度擬合訓練期間見過的生成器，將檢測視為不透明的二分類任務，或者依賴昂貴的大型語言模型（LLM）來解釋輸出。為了解決這些問題，研究人員提出了TruEye，一種用於細粒度檢測和定位AI生成或篡改的人像及場景的新模型。

TruEye的核心創新在於其能夠區分五種合成內容類別，包括最具挑戰性的情況：將真實人物合成到一個他們從未實際出現過的真實場景中。與傳統的僅分配單一真實性標籤的檢測器不同，TruEye通過一個掩碼條件雙流Transformer架構，將人物和場景令牌分離，同時保留塊級別的空間對應關係。每個流內部有專門的推理機制，區域門控交叉注意力確保主體和背景之間的語義連貫性，令牌級監督和全局組成分類則提供魯棒且可解釋的預測，而無需調用LLM。

由於將流內注意力限制在語義連貫的令牌上，TruEye的運行速度比基於LLM的競爭對手快100倍以上。在6個數據集以及研究人員新創建的FineSyn數據集上的實驗表明，TruEye以更高的準確率、更快的推理速度和更強的泛化能力超越了現有的最先進檢測器，能夠很好地應對未見過的AI生成或篡改圖像。

這一研究成果為應對AI生成內容帶來的安全挑戰提供了有力工具，有望在社交媒體、數字取證等領域發揮重要作用。