2026-05-27 12:00 UTC+8站内改写1 分钟阅读更新: 2026-06-30 21:03 UTC+8

并非所有模态都平等：面向多模态视频的指令感知门控机制

预训练视频大模型在视觉推理上表现出色，但处理带有音频、深度图等辅助流的视频时，统一融合会导致模态干扰。为此，研究者提出UniMVU框架，通过两层动态门控（内模态门和模态级门）实现指令感知融合，在六个基准上取得最高13.5 CIDEr的提升，且门控机制与人类可解释的模态相关性一致。

来源arXiv Computer Vision作者: Bonan Ding, Umair Nawaz, Ufaq Khan, Abdelrahman M. Shaker, Muhammad Haris Khan, Jiale Cao, Jin Xie, Fahad Shahbaz Khan

文章情报

工程师进阶

要点

UniMVU采用指令感知门控，包括内模态门（强调显著区域）和模态级门（重新加权整个流），根据文本指令动态平衡模态重要性。
模型结合跨模态自注意力和指令驱动的内模态门控模块，以及带控制令牌的模态级门控模块，对时间对齐流采用快慢融合减少冗余。
在AVQA、AVSD、Music-AVQA等六个基准上，UniMVU持续优于静态融合基线，CIDEr指标最高提升13.5。

为什么重要

这条新闻值得关注，因为UniMVU采用指令感知门控，包括内模态门（强调显著区域）和模态级门（重新加权整个流），根据文本指令动态平衡模态重要性。

技术影响

可能影响模型选型、推理成本、产品能力和评测基准。

本面板由 AI 生成，经人工审核。

预训练的视频大语言模型在视觉推理方面表现出色，但当视频伴随辅助数据流（如音频、深度图或密集的时间证据）时，它们常常面临挑战。在这些场景中，统一融合会导致模态干扰，使无关通道分散模型的注意力。例如，在视频问答任务中，模型需要同时理解视觉内容、音频线索和可能的深度信息，但传统的融合方法不加区分地处理所有模态，导致性能下降。为了解决这一问题，研究人员提出了UniMVU——一个统一的多模态视频理解框架。该框架通过两层动态门控机制实现指令感知融合：内模态门强调每个模态内的显著区域，而模态级门则重新加权整个数据流。两者均根据文本指令进行条件调整，从而自适应地平衡模态的重要性。

UniMVU将跨模态自注意力与指令驱动的内模态门控模块和带控制令牌的模态级门控模块相结合。对于时间对齐的数据流，它进一步采用快慢融合方案以减少冗余。在AVQA、AVSD、Music-AVQA、ScanQA、SQA3D和MVBench这六个基准测试中，UniMVU持续优于静态融合基线，在CIDEr指标上最高提升13.5。此外，分析表明门控机制与人类可解释的模态相关性一致，消融实验也证实了内模态门和模态级门的各自贡献。UniMVU为指令感知的多模态视频理解提供了一种简单、统一的方案，可扩展到多种模态，而无需手工设计融合规则。这项工作展示了动态门控在平衡多模态信息中的潜力，为未来的多模态AI系统提供了新的思路。