2026-06-29 12:00 UTC+8站内改写1 分钟阅读更新: 2026-06-29 16:14 UTC+8

TruEye：图像中AI生成人物的细粒度检测

TruEye是一种新型模型，能够细粒度检测和定位AI生成或篡改的人像和场景，区分五种合成内容类别，比现有方法更快更准，且无需大型语言模型。

来源arXiv Computer Vision作者: Jay Barot, Dan Lin

随着AI生成图像技术在互联网上的泛滥，其中一些被用于娱乐，而另一些则被武器化，用于对社交媒体用户进行欺诈和社会工程攻击。现有的检测器存在诸多局限：它们往往过度拟合训练期间见过的生成器，将检测视为不透明的二分类任务，或者依赖昂贵的大型语言模型（LLM）来解释输出。为了解决这些问题，研究人员提出了TruEye，一种用于细粒度检测和定位AI生成或篡改的人像及场景的新模型。

TruEye的核心创新在于其能够区分五种合成内容类别，包括最具挑战性的情况：将真实人物合成到一个他们从未实际出现过的真实场景中。与传统的仅分配单一真实性标签的检测器不同，TruEye通过一个掩码条件双流Transformer架构，将人物和场景令牌分离，同时保留块级别的空间对应关系。每个流内部有专门的推理机制，区域门控交叉注意力确保主体和背景之间的语义连贯性，令牌级监督和全局组成分类则提供鲁棒且可解释的预测，而无需调用LLM。

由于将流内注意力限制在语义连贯的令牌上，TruEye的运行速度比基于LLM的竞争对手快100倍以上。在6个数据集以及研究人员新创建的FineSyn数据集上的实验表明，TruEye以更高的准确率、更快的推理速度和更强的泛化能力超越了现有的最先进检测器，能够很好地应对未见过的AI生成或篡改图像。

这一研究成果为应对AI生成内容带来的安全挑战提供了有力工具，有望在社交媒体、数字取证等领域发挥重要作用。