2026-06-04 12:00 UTC+8站内改写1 分钟阅读更新: 2026-06-30 21:03 UTC+8

眼见不为实——用于搜索辅助视频虚假信息检测的基准

本文介绍了一个名为EVID-Bench的新基准，用于检测基于搜索的视频虚假信息。该基准包含222个视频，涵盖9种操纵类型，分为三大类：AI生成、单源编辑和多源编辑。研究发现，即使最好的多模态模型在点级准确率上也仅达61.43%，视频级准确率为43.24%，其中AI生成的操纵最具挑战性。

来源arXiv Computer Vision作者: Tao Yu, Yujia Yang, Shenghua Chai, Zhang Jinshuai, Haopeng Jin, Hao Wang, Minghui Zhang, Zhongtian Luo, Yuchen Long, Xinlong Chen, Jiabing Yang, Zhaolu Kang, Yuxuan Zhou, Zhengyu Man, Xinming Wang, Hongzhu Yi, Zheqi He, Xi Yang, Yan Huang, Liang Wang

近年来，视频虚假信息越来越多地以语义和证据层面的操纵形式出现。真实镜头可能被选择性编辑、时间顺序重排、跨来源拼接，或者借助AI生成内容构建虚假叙事。这种依赖于外部证据的操纵无法仅通过输入视频本身可靠验证，因为缺失、重排、替换或重新语境化的证据存在于视频之外。针对这一挑战，Tao Yu等20位研究者联合提出了EVID-Bench——一个用于搜索辅助视频虚假信息检测的基准。在该基准中，系统必须搜索开放网络以获取相关视频，并通过跨视频比较识别虚假信息。

EVID-Bench由222个视频组成，涵盖9种操纵类型，分为三大类别：AI生成（例如深度伪造、合成场景）、单源编辑（例如时间修剪、帧删除）和多源编辑（例如拼接、覆盖）。所有样本均经过验证，无论通过视觉检查还是前沿模型都无法直接察觉。研究团队采用检索增强验证基线，对九个前沿多模态模型进行了评估。表现最好的系统在点级准确率上也仅达到61.43%，视频级准确率为43.24%。值得注意的是，AI生成的操纵依然是所有类别的挑战中最难处理的。

进一步的错误分析揭示了几个反复出现的问题：模型会固着于无关的锚点，将合成内容误归因于编辑拼接，以及在完全解释操纵之前过早终止搜索。这些发现表明，当前的视频虚假信息检测尚有很大提升空间，而EVID-Bench为未来研究提供了一个重要的评估平台。研究者公开了基准和代码，以推动更强大的检索辅助视频验证系统的发展。此外，该基准的发布有望促进跨学科合作，提升社交媒体平台的内容审核能力，并帮助公众更好地识别虚假视频信息。随着AI生成技术的不断进步，此类基准对于维护信息生态的真实性至关重要。