2026-05-27 12:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

並非所有模態都平等：面向多模態視頻的指令感知門控機制

預訓練視頻大模型在視覺推理上表現出色，但處理帶有音頻、深度圖等輔助流的視頻時，統一融合會導致模態干擾。為此，研究者提出UniMVU框架，通過兩層動態門控（內模態門和模態級門）實現指令感知融合，在六個基準上取得最高13.5 CIDEr的提升，且門控機制與人類可解釋的模態相關性一致。

來源arXiv Computer Vision作者: Bonan Ding, Umair Nawaz, Ufaq Khan, Abdelrahman M. Shaker, Muhammad Haris Khan, Jiale Cao, Jin Xie, Fahad Shahbaz Khan

文章情報

工程師進階

要點

UniMVU採用指令感知門控，包括內模態門（強調顯著區域）和模態級門（重新加權整個流），根據文本指令動態平衡模態重要性。
模型結合跨模態自注意力和指令驅動的內模態門控模塊，以及帶控制令牌的模態級門控模塊，對時間對齊流採用快慢融合減少冗餘。
在AVQA、AVSD、Music-AVQA等六個基準上，UniMVU持續優於靜態融合基線，CIDEr指標最高提升13.5。

為甚麼重要

這條新聞值得關注，因為UniMVU採用指令感知門控，包括內模態門（強調顯著區域）和模態級門（重新加權整個流），根據文本指令動態平衡模態重要性。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

本面板由 AI 生成，經人工審核。

預訓練的視頻大語言模型在視覺推理方面表現出色，但當視頻伴隨輔助數據流（如音頻、深度圖或密集的時間證據）時，它們常常面臨挑戰。在這些場景中，統一融合會導致模態干擾，使無關通道分散模型的注意力。例如，在視頻問答任務中，模型需要同時理解視覺內容、音頻線索和可能的深度信息，但傳統的融合方法不加區分地處理所有模態，導致性能下降。為了解決這一問題，研究人員提出了UniMVU——一個統一的多模態視頻理解框架。該框架通過兩層動態門控機制實現指令感知融合：內模態門強調每個模態內的顯著區域，而模態級門則重新加權整個數據流。兩者均根據文本指令進行條件調整，從而自適應地平衡模態的重要性。

UniMVU將跨模態自注意力與指令驅動的內模態門控模塊和帶控制令牌的模態級門控模塊相結合。對於時間對齊的數據流，它進一步採用快慢融合方案以減少冗餘。在AVQA、AVSD、Music-AVQA、ScanQA、SQA3D和MVBench這六個基準測試中，UniMVU持續優於靜態融合基線，在CIDEr指標上最高提升13.5。此外，分析表明門控機制與人類可解釋的模態相關性一致，消融實驗也證實了內模態門和模態級門的各自貢獻。UniMVU為指令感知的多模態視頻理解提供了一種簡單、統一的方案，可擴展到多種模態，而無需手工設計融合規則。這項工作展示了動態門控在平衡多模態信息中的潛力，為未來的多模態AI系統提供了新的思路。