面向低延遲視覺-語言模型的自我中心視覺理解中的雙重正確預測
本文研究了在自我中心視覺理解中,如何通過權重剪枝實現低延遲視覺-語言模型,同時保證預測的準確性和證據基礎(雙重正確)。現有剪枝方法常保持證據定位但損害準確性,作者提出理由告知剪枝策略,在自我中心視頻數據集上達到了最高準確率和雙重正確預測。
近年來,以自我為中心的視覺理解(egocentric visual understanding)中視覺語言模型(VLM)的快速發展,使得人機協作任務中的低延遲推理變得至關重要。權重剪枝技術通過縮小模型大小並減少計算量,為機載處理和實時交互機器人提供了高效解決方案。然而,安全的人機交互要求剪枝策略不僅要保持預測準確性,還要確保輸出有堅實的證據基礎,即“雙重正確”預測。
來自研究團隊(包括Qitong Wang等四位作者)的論文通過雙重正確預測的視角重新審視了VLM的剪枝問題。實驗結果顯示,現有的剪枝方法通常能夠保留正確的證據定位,但卻顯著削弱了模型對最終答案的預測能力。這種證據與決策之間的脱節可能導致在關鍵任務中產生不可靠的結果。為了解決這一問題,研究提出了一種基於理由的剪枝策略(rationale-informed pruning)。該方法通過強化證據與決策之間的對齊,在剪枝過程中優先保留那些對最終預測貢獻最大的證據區域,從而在保持模型小型化的同時,確保預測的準確性和可解釋性。
在多個自我中心視頻數據集上的基準測試表明,所提出的策略不僅在所有基線方法中取得了最高的預測準確率,而且在雙重正確指標上(同時滿足準確性和證據合理性)也顯著超越現有技術。這項工作為開發既高效又可靠的VLM提供了新思路,並強調了在機器人協作和具身智能領域將透明度、可審計性和安全性作為設計要點的必要性。
該論文已於2026年6月23日提交至arXiv(編號2606.25160),並被2026年IEEE/RSJ國際智能機器人與系統會議(IROS 2026)接收,展示了學術界對低延遲、可信賴視覺語言模型的持續關注。未來工作將進一步探索在更復雜的動態環境中實現雙重正確預測的可行性。