深度伪造基准测试到底衡量了什么?一项使用冻结自监督表示的审计
一项新的研究通过简单的线性探针对视频、图像和音频的深度伪造基准进行审计,发现通用自监督表示即可接近专用检测器的性能,表明这些基准可能更多衡量的是通用模态理解而非真正的鉴伪能力。
- 深度伪造检测器在基准测试中表现良好,但在实际场景中频繁失效。
- 研究发现,使用冻结自监督表示的线性探针能接近专用检测器的性能。
来源详情
AI News Hub 持续跟踪 arXiv Computer Vision 的 AI 更新,并公开来源状态、授权边界、抓取方式和已发布文章。
Use abstract and metadata; check individual paper license before full text.
一项新的研究通过简单的线性探针对视频、图像和音频的深度伪造基准进行审计,发现通用自监督表示即可接近专用检测器的性能,表明这些基准可能更多衡量的是通用模态理解而非真正的鉴伪能力。
本文提出一种基于可微架构搜索的方法,用于自动发现视觉提示微调中图像标记与提示标记的最佳融合方案。该方法将学习提示及其融合方式联合优化,并引入仿射变换和交叉注意力两种新融合机制。在34个数据集上的实验表明,该方法在准确率、延迟和参数数量之间实现了良好的权衡,并揭示了混合融合方式能更有效地利用Transformer的层语义。
研究人员引入了浑浊水下基线(TUB)数据集和新指标PCD,以量化极端浑浊度下水下场景的信息损失。PCD与实例分割性能强相关,优于常用指标。
GeMoE通过将令牌路由视为信息编码任务,基于最小描述长度原则和门控熵实现自适应专家选择,在保持99.5%性能的同时将专家激活稀疏性提升36.5%。
本研究将功能磁共振成像(fMRI)认知任务图谱从单源迁移扩展到多源迁移,覆盖人类连接组计划23个任务状态,并采用布尔整数规划(BIP)分析预算约束下的任务分配。训练了1127个任务特定和迁移模型。单源迁移具有方向性和范式结构:运动状态在运动范式内迁移良好,但对非运动目标支持有限。多源迁移依赖于源集组成,表明成对任务图谱无法完全捕捉多对一关系。BIP反复将直接监督分配给0-back和2-back工作记忆状态,尽管它们并非最强的单个源,这可能反映了工作记忆任务中感知、注意和执行过程的整合。揭示了跨范式受限的运动簇和工作记忆状态的高优先级。
本文提出了一种创新的多任务深度学习模型,能够高精度预测激光穿透焊接中的穿透状态、深度和焊缝形态。该模型基于CMOS相机捕获的熔池图像,结合焊接参数,利用卷积神经网络和状态空间模型提取时空特征。在测试集上,穿透状态预测精度达99.35%,穿透深度误差为1.79毫米,焊缝横截面重建精度为95.65%。
研究人员开发了一种自监督框架,利用机载LiDAR和光学影像估算城市树木的地上生物量。该方法实现了高精度的树冠分割和生物量估算,揭示了城市碳储量及其随时间的变化,无需手动标注。
本文提出LCG框架,通过稀疏关系注意力(SRA)和路由一致性约束(RCC)实现长上下文多图像生成中的一致性和可扩展性,并构建了大规模合成数据集LCCD。实验表明,LCG在提示对齐和角色一致性方面优于基线方法。
本研究提出一种结合图像处理与深度学习的混合方法评估水果新鲜度。开发了量化腐败程度的图像处理算法(0-100分),并训练CNN进行二元分类(新鲜/腐烂)。通过逻辑回归融合两者结果,最终使图像处理算法能直接进行二元分类,无需CNN。该方法计算资源需求低,在苹果和橙子数据集上实现实时检测,准确率超90%。主要限制是水果需在白色或透明背景上隔离。
DocArena是一个全自动数据整理流水线,利用多模态大语言模型(MLLM)将原始文档转化为可控、可扩展的训练环境,用于训练文档搜索智能体。它无需人工标注,可生成推理密集的问答对,并构建包含8,336篇文档、覆盖16个领域和49种语言的DocArena-79K数据集。实验表明,基于DocArena训练的智能体在检索准确率和问答质量上均达到最优。
大多数视觉-语言-动作(VLA)模型是反应式的,仅根据当前指令和观测预测下一步动作,难以应对部署时的环境变化。本文提出反射式VLA,通过上下文中的观测-动作-后果三元组来调节决策,从而暴露部署特定的动作-效果映射。在LIBERO等基准测试中,反射式VLA在分布偏移下平均成功率提升5.4和4.2个百分点,消融实验表明动作后果而非额外上下文长度是关键。
本文提出一种新的神经网络量化方法,通过学习量化感知的线性路径来寻找低损失子空间的中点,从而在不使用直通估计器或显式离散化的情况下实现与量化感知训练相当的性能。
本研究评估了多模态大语言模型(MLLM)在辅助AI任务中的表现,包括货币识别、场景文本问答和多语言视觉内容阅读。研究者构建了NetraLink系统,使用头戴式GoPro采集真实世界第一人称数据,并创建了相应基准测试。结果揭示了当前MLLM在视觉感知和语言交互方面的优势与局限。
视觉故事生成要求图像序列与叙述提示对齐且角色外观一致。现有免训练方法依赖结构化提示(每句重复完整描述),不符合自然叙述。FreeStory通过实体引导的特征复用,在自由形式提示下保持角色一致性,并引入FreeStoryBench基准,在单/多角色故事中均达到领先水平。
Wan-Streamer 是一个原生流式、端到端的交互基础模型,专为低延迟、全双工信视听交互设计。它在一个Transformer中统一建模语言、音频和视频的输入输出,使用块因果注意力实现增量流式,无需依赖外部模块。模型侧响应延迟约200毫秒,总交互延迟约550毫秒,支持亚秒级双工信视听通信。
Chorus II 提出一种跨请求稀疏性重用框架,通过复用历史请求的稀疏注意力掩码来避免在线掩码预测,可选的特征重用和引导增强进一步保持生成质量,实现2.16倍加速。
Yuvion VL是一系列专为内容和AI安全设计的多模态大语言模型,通过将安全性视为对抗性和多模态问题,构建了围绕对抗鲁棒性的完整管道。其数据构建采用自动化对抗感知合成与多阶段质量控制;训练采用三阶段流程,包括风险概念跨模态对齐的继续预训练、生产级安全任务的指令后训练以及增强可解释性的推理后训练。创新性地引入困惑-对比微调框架,通过挖掘模型特定困惑并构建多图像对比组,强制区分细粒度视觉语义元素。同时推出YVRE基准集,包含多样化的安全评估。实验表明Yuvion VL-32B在安全性能上领先于同类开源和闭源模型,同时保持通用能力。
本文提出了一种噪声感知边界增强生成学习(NBGL)框架,用于超声散斑抑制。该框架由散斑抑制分支和边界增强分支组成,并引入噪声感知交互权重生成(NIWG)模块,通过3D拉普拉斯滤波和中位数绝对偏差估计自适应调节噪声水平。在141个3D经阴道超声数据集上的实验表明,NBGL在六个噪声级别上均优于现有方法。
随着生成式AI的发展,图像伪造变得高度逼真,亟需可信的认证系统。现有的取证检测器缺乏可解释性,而视觉语言模型(VLM)虽能提供解释,但无法利用取证痕迹进行可靠检测。本文提出取证知识图谱(FKG),将取证证据提取、结构化推理和可解释解释统一起来。FKG结构编码取证痕迹及其因果依赖关系,并链接到场景内容。为生成准确的FKG,我们引入了一种新的取证认证网络和迭代上下文细化策略,引导VLM生成忠实、有依据的解释。我们还发布了FKG-50K数据集,包含50,000个具有真实FKG的逼真伪造图像。实验表明,FKG在检测、伪造识别与定位以及取证论证方面均优于现有检测器和VLM。
研究人员提出TheProfessor,这是PromptKD的多教师扩展,用于蒸馏视觉语言模型。使用领域微调教师和零样本教师的集成,基于置信度的集成方法将平均调和准确率从87.52提升至89.28,在域迁移数据集如EuroSAT上提升显著。
REALM 提供了首个针对物理世界视觉语言模型的统一红队测试基准,整合了12种攻击方法、3种防御措施和13个模型,以公平比较漏洞。关键发现包括文本和排版注入攻击最有效,且模型规模本身不提升鲁棒性。
一种名为HeRA的新方法在个体注意力头级别上对齐多模态大语言模型的表示,提升了性能并减少了幻觉。
视觉语言模型(VLM)在面对否定表述时表现脆弱,易受误导性文本干扰。HANCLIP通过双曲几何和角度三元组目标,在保持预训练表示全局结构的同时增强否定敏感性,仅用2万图像-文本四元组训练,即可提升NegBench基准性能。
ABACUS是一个统一的视觉语言模型,能够在无基准特定训练的情况下处理物体计数、人群计数、指代表达计数以及计数忠实图像生成。它基于3B参数统一基础模型构建,通过三项关键创新适配于物体定位任务:密度感知自适应缩放与目标图用于空间定位;基于GRPO的边界感知计数策略消除裁剪边界误差;以及循环一致GRPO策略,理解分支自我批评生成输出,无需外部标注即可弥合理解与生成之间的差距。ABACUS在七个基准上均达到最先进水平,超越了任务特定专家和更大的通用模型。
提出了一种从空间域转向频谱域的小目标检测新范式,通过频率引导特征表示框架(包括WDG、LGE、FDHead三个轻量模块)在多个基准上以仅1/6的参数超越YOLOv11。
最新研究指出,当前的视觉语言模型(VLM)在评估视觉-语言一致性时存在注意力偏移问题,即高注意力区域与语义标记不匹配。为解决这一问题,研究人员提出了基于提示侧语义的PV-TAM方法,通过过滤模态边界标记的偏差并利用注意力峰值分布来评估对齐程度,实验表明该方法在多个数据集上显著提升了定位指标。
现代视频扩散模型通过扩展规模提升了生成质量,但也带来了高昂的推理成本。Sol视频推理引擎提出了一种无需训练的智能体加速框架,通过缓存、稀疏注意力、token剪枝、量化和内核融合五种技术,针对具体模型、硬件和配置进行实例特定优化。在三个不同规模的视频模型上,该框架实现了超过2倍的端到端加速,同时几乎不损失VBench质量指标。
本文提出了一种几何信息驱动的计算机视觉流水线,能够从单台自行车摄像头自动检测超车事件,无需多传感器或标定。在315个真实世界事件上验证,召回率97.8%,零误报。系统平均在车辆通过前2.44秒识别超车意图,84.1%的事件超过1.5秒人类反应时间阈值。横向距离估计误差13-14厘米,足以区分近距离超车。
研究者提出TeleMorpher,一种基于扩散模型的一键式框架,用于视频中同步运动与位置编辑。该方法通过分离主角与背景、利用运动先验进行姿势变形,并引入新的评估指标,实现了更可控和精确的编辑。实验表明,在真实场景视频和TaiChi数据集上,TeleMorpher在定量和定性评估中均优于现有方法。
本文提出了一种学习异步调度的方法,用于多表示潜扩散模型。通过调度校正的目标函数和快速联合探针,学习凸且单调的调度参数。在ImageNet 256x256上,仅用200个epoch达到FID 1.05(匹配800个epoch的SFD-XL),600个epoch达到FID 1.02(超越1B参数的SFD-XXL)。无引导设置下也取得显著提升。