arXiv Computer Vision AI 新闻来源

公开文章 294采集文章 330可信度 75刷新频率 360 分钟

健康状态健康来源类型研究原文权限 允许原文最近入库 2026-06-26ID arxiv-cs-cv运行状态 已启用

Use abstract and metadata; check individual paper license before full text.

最新公开文章

深度伪造基准测试到底衡量了什么？一项使用冻结自监督表示的审计

2026-06-26 12:00 UTC+8

一项新的研究通过简单的线性探针对视频、图像和音频的深度伪造基准进行审计，发现通用自监督表示即可接近专用检测器的性能，表明这些基准可能更多衡量的是通用模态理解而非真正的鉴伪能力。

深度伪造检测器在基准测试中表现良好，但在实际场景中频繁失效。
研究发现，使用冻结自监督表示的线性探针能接近专用检测器的性能。

通过可微搜索在视觉基础模型中实现层特定提示融合发现

2026-06-26 12:00 UTC+8

本文提出一种基于可微架构搜索的方法，用于自动发现视觉提示微调中图像标记与提示标记的最佳融合方案。该方法将学习提示及其融合方式联合优化，并引入仿射变换和交叉注意力两种新融合机制。在34个数据集上的实验表明，该方法在准确率、延迟和参数数量之间实现了良好的权衡，并揭示了混合融合方式能更有效地利用Transformer的层语义。

将提示融合方案选择建模为双层优化问题，并通过可微架构搜索求解。
提出了仿射变换和交叉注意力两种新融合机制，丰富了搜索空间。

超越美学：量化浑浊场景中的信息损失

2026-06-26 12:00 UTC+8

研究人员引入了浑浊水下基线（TUB）数据集和新指标PCD，以量化极端浑浊度下水下场景的信息损失。PCD与实例分割性能强相关，优于常用指标。

TUB数据集包含1320张极端浑浊度下的图像和超过16000个高置信度分割掩码。
提出的PCD指标基于相位一致性图，具有对比度不变性。

GeMoE：门控熵是MoE大视觉语言模型中不确定性感知自适应路由的全部所需

2026-06-26 12:00 UTC+8

GeMoE通过将令牌路由视为信息编码任务，基于最小描述长度原则和门控熵实现自适应专家选择，在保持99.5%性能的同时将专家激活稀疏性提升36.5%。

传统MoE使用静态Top-k路由，无法动态调整专家数量，造成资源浪费。
GeMoE将路由建模为最小描述长度问题，利用门控熵衡量令牌复杂度。

本研究将功能磁共振成像（fMRI）认知任务图谱从单源迁移扩展到多源迁移，覆盖人类连接组计划23个任务状态，并采用布尔整数规划（BIP）分析预算约束下的任务分配。训练了1127个任务特定和迁移模型。单源迁移具有方向性和范式结构：运动状态在运动范式内迁移良好，但对非运动目标支持有限。多源迁移依赖于源集组成，表明成对任务图谱无法完全捕捉多对一关系。BIP反复将直接监督分配给0-back和2-back工作记忆状态，尽管它们并非最强的单个源，这可能反映了工作记忆任务中感知、注意和执行过程的整合。揭示了跨范式受限的运动簇和工作记忆状态的高优先级。

将fMRI任务图谱从一对一迁移扩展到多对一迁移与预算约束任务依赖
使用布尔整数规划分析23个任务状态中的预算约束任务分配

用于预测激光焊接穿透深度和形态的多任务时空深度神经网络

2026-06-26 12:00 UTC+8

本文提出了一种创新的多任务深度学习模型，能够高精度预测激光穿透焊接中的穿透状态、深度和焊缝形态。该模型基于CMOS相机捕获的熔池图像，结合焊接参数，利用卷积神经网络和状态空间模型提取时空特征。在测试集上，穿透状态预测精度达99.35%，穿透深度误差为1.79毫米，焊缝横截面重建精度为95.65%。

提出多任务深度学习模型，集成时空特征和焊接参数，预测穿透状态、深度和焊缝形态。
使用CMOS相机捕获熔池图像，结合卷积神经网络和状态空间模型处理时空信息。

城市环境中利用机载LiDAR和光学观测的自监督树木生物量估算

2026-06-26 12:00 UTC+8

研究人员开发了一种自监督框架，利用机载LiDAR和光学影像估算城市树木的地上生物量。该方法实现了高精度的树冠分割和生物量估算，揭示了城市碳储量及其随时间的变化，无需手动标注。

该框架使用落叶期机载LiDAR和近红外正射影像，在树冠级别估算生物量。
双流交叉注意力网络结合伪标签，树冠分割Dice得分达到0.84。

LCG：基于稀疏关系注意力的长上下文一致图像生成

2026-06-26 12:00 UTC+8

本文提出LCG框架，通过稀疏关系注意力（SRA）和路由一致性约束（RCC）实现长上下文多图像生成中的一致性和可扩展性，并构建了大规模合成数据集LCCD。实验表明，LCG在提示对齐和角色一致性方面优于基线方法。

LCG框架利用稀疏关系注意力（SRA）选择性关注核心特征，确保语义和布局信息的高效传播。
路由一致性约束（RCC）通过身份感知掩码对齐结构模式，减少复杂多角色场景中的外观漂移。

基于混合机器学习和图像处理的水果质量预测方法

2026-06-26 12:00 UTC+8

本研究提出一种结合图像处理与深度学习的混合方法评估水果新鲜度。开发了量化腐败程度的图像处理算法（0-100分），并训练CNN进行二元分类（新鲜/腐烂）。通过逻辑回归融合两者结果，最终使图像处理算法能直接进行二元分类，无需CNN。该方法计算资源需求低，在苹果和橙子数据集上实现实时检测，准确率超90%。主要限制是水果需在白色或透明背景上隔离。

图像处理算法量化腐败程度（0-100）。
CNN进行新鲜/腐烂二元分类。

DocArena：将原始文档转化为可控的训练环境，用于文档搜索智能体

2026-06-26 12:00 UTC+8

DocArena是一个全自动数据整理流水线，利用多模态大语言模型（MLLM）将原始文档转化为可控、可扩展的训练环境，用于训练文档搜索智能体。它无需人工标注，可生成推理密集的问答对，并构建包含8,336篇文档、覆盖16个领域和49种语言的DocArena-79K数据集。实验表明，基于DocArena训练的智能体在检索准确率和问答质量上均达到最优。

DocArena通过MLLM视觉感知自动结构化文档并构建训练环境，无需人工标注。
创建的DocArena-79K数据集涵盖16个领域和49种语言，包含8,336篇文档的问答对。

反射式VLA：利用上下文动作后果实现VLA的泛化

2026-06-25 12:00 UTC+8

大多数视觉-语言-动作（VLA）模型是反应式的，仅根据当前指令和观测预测下一步动作，难以应对部署时的环境变化。本文提出反射式VLA，通过上下文中的观测-动作-后果三元组来调节决策，从而暴露部署特定的动作-效果映射。在LIBERO等基准测试中，反射式VLA在分布偏移下平均成功率提升5.4和4.2个百分点，消融实验表明动作后果而非额外上下文长度是关键。

提出反射式VLA模型，利用观测-动作-后果三元组作为上下文来改善泛化
通过共享注意力的VLM处理所有模态，动作专家直接推理历史三元组

通过学习低损失子空间进行神经网络量化

2026-06-25 12:00 UTC+8

本文提出一种新的神经网络量化方法，通过学习量化感知的线性路径来寻找低损失子空间的中点，从而在不使用直通估计器或显式离散化的情况下实现与量化感知训练相当的性能。

量化导致性能下降是因为离散约束使参数偏离最优解
低损失全精度解属于连通的低损失子空间

我们到了吗？探索多模态大语言模型在辅助AI应用中的能力

2026-06-25 12:00 UTC+8

本研究评估了多模态大语言模型（MLLM）在辅助AI任务中的表现，包括货币识别、场景文本问答和多语言视觉内容阅读。研究者构建了NetraLink系统，使用头戴式GoPro采集真实世界第一人称数据，并创建了相应基准测试。结果揭示了当前MLLM在视觉感知和语言交互方面的优势与局限。

多模态大语言模型在辅助AI任务中展现出潜力，但在复杂场景下仍有局限
NetraLink系统利用头戴式GoPro采集真实世界第一人称数据

FreeStory：无需训练的视觉故事生成中角色一致性保持方法

2026-06-25 12:00 UTC+8

视觉故事生成要求图像序列与叙述提示对齐且角色外观一致。现有免训练方法依赖结构化提示（每句重复完整描述），不符合自然叙述。FreeStory通过实体引导的特征复用，在自由形式提示下保持角色一致性，并引入FreeStoryBench基准，在单/多角色故事中均达到领先水平。

FreeStory无需训练，通过实体引导的特征复用实现自由形式提示下的角色一致性。
引入FreeStoryBench基准，包含单角色和多角色故事场景。

Wan-Streamer v0.1：端到端实时交互基础模型

2026-06-25 12:00 UTC+8

Wan-Streamer 是一个原生流式、端到端的交互基础模型，专为低延迟、全双工信视听交互设计。它在一个Transformer中统一建模语言、音频和视频的输入输出，使用块因果注意力实现增量流式，无需依赖外部模块。模型侧响应延迟约200毫秒，总交互延迟约550毫秒，支持亚秒级双工信视听通信。

Wan-Streamer 采用单一Transformer处理语言、音频和视频的输入与输出，实现端到端交互。
通过块因果注意力和低延迟多模态令牌调度，支持160毫秒（25fps）的流式单元。

Chorus II: 跨请求稀疏性重用实现高效图像到视频生成

2026-06-25 12:00 UTC+8

Chorus II 提出一种跨请求稀疏性重用框架，通过复用历史请求的稀疏注意力掩码来避免在线掩码预测，可选的特征重用和引导增强进一步保持生成质量，实现2.16倍加速。

针对图像到视频生成的扩散模型计算成本高的问题，提出跨请求稀疏性重用。
利用相似请求间一致的稀疏注意力模式，复用历史稀疏掩码作为先验。

Yuvion VL：一种用于对抗性内容和AI安全的多模态基础模型

2026-06-25 12:00 UTC+8

Yuvion VL是一系列专为内容和AI安全设计的多模态大语言模型，通过将安全性视为对抗性和多模态问题，构建了围绕对抗鲁棒性的完整管道。其数据构建采用自动化对抗感知合成与多阶段质量控制；训练采用三阶段流程，包括风险概念跨模态对齐的继续预训练、生产级安全任务的指令后训练以及增强可解释性的推理后训练。创新性地引入困惑-对比微调框架，通过挖掘模型特定困惑并构建多图像对比组，强制区分细粒度视觉语义元素。同时推出YVRE基准集，包含多样化的安全评估。实验表明Yuvion VL-32B在安全性能上领先于同类开源和闭源模型，同时保持通用能力。

Yuvion VL是多模态大语言模型系列，专为内容和AI安全构建，具有指令调优和推理导向变体。
采用三阶段训练：继续预训练、指令后训练和推理后训练，以及创新的困惑-对比微调方法。

噪声感知边界增强的生成学习用于超声散斑抑制

2026-06-25 12:00 UTC+8

本文提出了一种噪声感知边界增强生成学习（NBGL）框架，用于超声散斑抑制。该框架由散斑抑制分支和边界增强分支组成，并引入噪声感知交互权重生成（NIWG）模块，通过3D拉普拉斯滤波和中位数绝对偏差估计自适应调节噪声水平。在141个3D经阴道超声数据集上的实验表明，NBGL在六个噪声级别上均优于现有方法。

NBGL框架结合生成学习与边界增强，同时抑制散斑并保留解剖边界。
NIWG模块通过3D拉普拉斯滤波估计噪声水平，生成自适应交互权重。

使用取证知识图谱的可信图像认证

2026-06-24 12:00 UTC+8

随着生成式AI的发展，图像伪造变得高度逼真，亟需可信的认证系统。现有的取证检测器缺乏可解释性，而视觉语言模型（VLM）虽能提供解释，但无法利用取证痕迹进行可靠检测。本文提出取证知识图谱（FKG），将取证证据提取、结构化推理和可解释解释统一起来。FKG结构编码取证痕迹及其因果依赖关系，并链接到场景内容。为生成准确的FKG，我们引入了一种新的取证认证网络和迭代上下文细化策略，引导VLM生成忠实、有依据的解释。我们还发布了FKG-50K数据集，包含50,000个具有真实FKG的逼真伪造图像。实验表明，FKG在检测、伪造识别与定位以及取证论证方面均优于现有检测器和VLM。

提出取证知识图谱（FKG），整合取证证据提取、结构化推理和可解释解释。
引入新的取证认证网络和迭代上下文细化策略，以生成准确的FKG。

教授：多教师无监督提示蒸馏用于视觉语言模型

2026-06-24 12:00 UTC+8

研究人员提出TheProfessor，这是PromptKD的多教师扩展，用于蒸馏视觉语言模型。使用领域微调教师和零样本教师的集成，基于置信度的集成方法将平均调和准确率从87.52提升至89.28，在域迁移数据集如EuroSAT上提升显著。

TheProfessor扩展了PromptKD，采用双教师集成：领域微调的PromptSRC ViT-L/14和零样本的EVA-CLIP-L/14。
基于置信度的集成在四个数据集上实现了89.28的平均HM，高于87.52。

REALM：面向物理世界视觉语言模型的统一红队测试基准

2026-06-24 12:00 UTC+8

REALM 提供了首个针对物理世界视觉语言模型的统一红队测试基准，整合了12种攻击方法、3种防御措施和13个模型，以公平比较漏洞。关键发现包括文本和排版注入攻击最有效，且模型规模本身不提升鲁棒性。

REALM 是首个物理世界视觉语言模型的红队测试统一基准。
在黑盒威胁模型下整合了12种攻击方法、3种防御和13个模型。

关注注意力头：多模态大语言模型的拓扑表示对齐

2026-06-24 12:00 UTC+8

一种名为HeRA的新方法在个体注意力头级别上对齐多模态大语言模型的表示，提升了性能并减少了幻觉。

HeRA在个体注意力头级别进行跨模态表示对齐。
对齐最不对齐的头能带来最大的性能提升。

HANCLIP：一族双曲角否定视觉语言模型

2026-06-24 12:00 UTC+8

视觉语言模型（VLM）在面对否定表述时表现脆弱，易受误导性文本干扰。HANCLIP通过双曲几何和角度三元组目标，在保持预训练表示全局结构的同时增强否定敏感性，仅用2万图像-文本四元组训练，即可提升NegBench基准性能。

VLM对否定表述的脆弱性源于浅层词共现和误导性文本干扰。
HANCLIP采用双曲公式和角度三元组目标，显式编码“图像不是什么”。

ABACUS：适配统一基础模型以桥接图像计数理解与生成

2026-06-24 12:00 UTC+8

ABACUS是一个统一的视觉语言模型，能够在无基准特定训练的情况下处理物体计数、人群计数、指代表达计数以及计数忠实图像生成。它基于3B参数统一基础模型构建，通过三项关键创新适配于物体定位任务：密度感知自适应缩放与目标图用于空间定位；基于GRPO的边界感知计数策略消除裁剪边界误差；以及循环一致GRPO策略，理解分支自我批评生成输出，无需外部标注即可弥合理解与生成之间的差距。ABACUS在七个基准上均达到最先进水平，超越了任务特定专家和更大的通用模型。

ABACUS是一个统一的视觉语言模型，支持多种计数任务和计数忠实图像生成，无需特定训练。
模型基于3B参数基础模型，引入密度感知自适应缩放、边界感知GRPO策略和循环一致GRPO策略三项创新。

从空间到频谱：一种高效的频率引导特征表示学习器用于小目标检测

2026-06-24 12:00 UTC+8

提出了一种从空间域转向频谱域的小目标检测新范式，通过频率引导特征表示框架（包括WDG、LGE、FDHead三个轻量模块）在多个基准上以仅1/6的参数超越YOLOv11。

小目标检测受限于空间域检测器丢弃高频细节的问题
提出从空间到频谱的范式转换，引入频率引导特征表示框架

倾听使视觉语言模型视野更清晰

2026-06-24 12:00 UTC+8

最新研究指出，当前的视觉语言模型（VLM）在评估视觉-语言一致性时存在注意力偏移问题，即高注意力区域与语义标记不匹配。为解决这一问题，研究人员提出了基于提示侧语义的PV-TAM方法，通过过滤模态边界标记的偏差并利用注意力峰值分布来评估对齐程度，实验表明该方法在多个数据集上显著提升了定位指标。

发现VLM中的解码漂移和结构标记导致注意力分布偏移，影响视觉-语言一致性评估
提出PV-TAM（提示-视觉标记激活图），利用提示侧语义和注意力峰值分布进行更准确的评估

Sol视频推理引擎：面向高效视频生成的智能体原生全栈加速框架

2026-06-24 12:00 UTC+8

现代视频扩散模型通过扩展规模提升了生成质量，但也带来了高昂的推理成本。Sol视频推理引擎提出了一种无需训练的智能体加速框架，通过缓存、稀疏注意力、token剪枝、量化和内核融合五种技术，针对具体模型、硬件和配置进行实例特定优化。在三个不同规模的视频模型上，该框架实现了超过2倍的端到端加速，同时几乎不损失VBench质量指标。

视频扩散模型推理加速面临实例特异性挑战，不同模型、硬件和配置需要不同策略。
Sol引擎采用智能体架构，并行优化五种加速技术并由集成器组合成全局栈。

基于几何信息的计算机视觉方法：从自行车上检测和检查超车车辆

2026-06-24 12:00 UTC+8

本文提出了一种几何信息驱动的计算机视觉流水线，能够从单台自行车摄像头自动检测超车事件，无需多传感器或标定。在315个真实世界事件上验证，召回率97.8%，零误报。系统平均在车辆通过前2.44秒识别超车意图，84.1%的事件超过1.5秒人类反应时间阈值。横向距离估计误差13-14厘米，足以区分近距离超车。

提出几何信息驱动的计算机视觉流水线，自动检测自行车超车事件
使用RT-DETR和ByteTrack，通过三阶段几何验证模块

TeleMorpher：迈向鲁棒的同步运动-位置编辑

2026-06-19 12:00 UTC+8

研究者提出TeleMorpher，一种基于扩散模型的一键式框架，用于视频中同步运动与位置编辑。该方法通过分离主角与背景、利用运动先验进行姿势变形，并引入新的评估指标，实现了更可控和精确的编辑。实验表明，在真实场景视频和TaiChi数据集上，TeleMorpher在定量和定性评估中均优于现有方法。

TeleMorpher是首个实现同步运动-位置编辑的一键式框架。
利用运动先验和真实运动指导，通过训练自由的姿势变形进行编辑。

学习何时去噪：优化潜扩散的异步调度

2026-06-19 12:00 UTC+8

本文提出了一种学习异步调度的方法，用于多表示潜扩散模型。通过调度校正的目标函数和快速联合探针，学习凸且单调的调度参数。在ImageNet 256x256上，仅用200个epoch达到FID 1.05（匹配800个epoch的SFD-XL），600个epoch达到FID 1.02（超越1B参数的SFD-XXL）。无引导设置下也取得显著提升。

提出学习多表示扩散模型中的异步去噪调度
使用调度校正的目标函数和凸单调参数化

arXiv Computer Vision

最新公开文章

深度伪造基准测试到底衡量了什么？一项使用冻结自监督表示的审计

通过可微搜索在视觉基础模型中实现层特定提示融合发现

超越美学：量化浑浊场景中的信息损失

GeMoE：门控熵是MoE大视觉语言模型中不确定性感知自适应路由的全部所需

超越单源认知任务图谱：通过fMRI迁移学习研究多源任务关系

用于预测激光焊接穿透深度和形态的多任务时空深度神经网络

城市环境中利用机载LiDAR和光学观测的自监督树木生物量估算

LCG：基于稀疏关系注意力的长上下文一致图像生成

基于混合机器学习和图像处理的水果质量预测方法

DocArena：将原始文档转化为可控的训练环境，用于文档搜索智能体

反射式VLA：利用上下文动作后果实现VLA的泛化

通过学习低损失子空间进行神经网络量化

我们到了吗？探索多模态大语言模型在辅助AI应用中的能力

FreeStory：无需训练的视觉故事生成中角色一致性保持方法

Wan-Streamer v0.1：端到端实时交互基础模型

Chorus II: 跨请求稀疏性重用实现高效图像到视频生成

Yuvion VL：一种用于对抗性内容和AI安全的多模态基础模型

噪声感知边界增强的生成学习用于超声散斑抑制

使用取证知识图谱的可信图像认证

教授：多教师无监督提示蒸馏用于视觉语言模型

REALM：面向物理世界视觉语言模型的统一红队测试基准

关注注意力头：多模态大语言模型的拓扑表示对齐

HANCLIP：一族双曲角否定视觉语言模型

ABACUS：适配统一基础模型以桥接图像计数理解与生成

从空间到频谱：一种高效的频率引导特征表示学习器用于小目标检测

倾听使视觉语言模型视野更清晰

Sol视频推理引擎：面向高效视频生成的智能体原生全栈加速框架

基于几何信息的计算机视觉方法：从自行车上检测和检查超车车辆

TeleMorpher：迈向鲁棒的同步运动-位置编辑

学习何时去噪：优化潜扩散的异步调度

全部来源