眼见不为实——用于搜索辅助视频虚假信息检测的基准
本文介绍了一个名为EVID-Bench的新基准,用于检测基于搜索的视频虚假信息。该基准包含222个视频,涵盖9种操纵类型,分为三大类:AI生成、单源编辑和多源编辑。研究发现,即使最好的多模态模型在点级准确率上也仅达61.43%,视频级准确率为43.24%,其中AI生成的操纵最具挑战性。
近年来,视频虚假信息越来越多地以语义和证据层面的操纵形式出现。真实镜头可能被选择性编辑、时间顺序重排、跨来源拼接,或者借助AI生成内容构建虚假叙事。这种依赖于外部证据的操纵无法仅通过输入视频本身可靠验证,因为缺失、重排、替换或重新语境化的证据存在于视频之外。针对这一挑战,Tao Yu等20位研究者联合提出了EVID-Bench——一个用于搜索辅助视频虚假信息检测的基准。在该基准中,系统必须搜索开放网络以获取相关视频,并通过跨视频比较识别虚假信息。
EVID-Bench由222个视频组成,涵盖9种操纵类型,分为三大类别:AI生成(例如深度伪造、合成场景)、单源编辑(例如时间修剪、帧删除)和多源编辑(例如拼接、覆盖)。所有样本均经过验证,无论通过视觉检查还是前沿模型都无法直接察觉。研究团队采用检索增强验证基线,对九个前沿多模态模型进行了评估。表现最好的系统在点级准确率上也仅达到61.43%,视频级准确率为43.24%。值得注意的是,AI生成的操纵依然是所有类别的挑战中最难处理的。
进一步的错误分析揭示了几个反复出现的问题:模型会固着于无关的锚点,将合成内容误归因于编辑拼接,以及在完全解释操纵之前过早终止搜索。这些发现表明,当前的视频虚假信息检测尚有很大提升空间,而EVID-Bench为未来研究提供了一个重要的评估平台。研究者公开了基准和代码,以推动更强大的检索辅助视频验证系统的发展。此外,该基准的发布有望促进跨学科合作,提升社交媒体平台的内容审核能力,并帮助公众更好地识别虚假视频信息。随着AI生成技术的不断进步,此类基准对于维护信息生态的真实性至关重要。