2026-05-19站内改写1 分鐘閱讀更新: 2026-06-12

多模態語言模型需要多少視覺標記？使用F^3A擴展視覺標記剪枝

隨着多模態模型規模的增長，向語言骨幹網絡提供的視覺標記序列越來越長，導致推理成本上升。本文提出了一個基本問題：實際需要多少視覺標記，以及在固定預算下如何分配？現有免訓練剪枝方法使用一次性代理，但作者認為視覺標記剪枝應視為任務條件證據搜索。他們提出了F^3A，一種在語言模型消費圖像標記之前運行的免訓練路由器，通過輕量級問題條件線索、凍結稀疏感知頭匹配以及粗證據定位、局部細化、覆蓋保持競爭和未覆蓋區域恢復來分配固定預算。F^3A無需模型訓練或額外LLM前向傳播，保留了原有的多模態提示和推斷流程。

來源arXiv Computer Vision作者: YiJie Huang, Yiqun Zhang, Zhuoyue Jia, Xiaocui Yang, Junzhao Huang, Zihan Wang, Shi Feng, Daling Wang, Yifei Zhang, Yongkang Liu

多模態語言模型（如視覺-語言模型）通過向語言骨幹網絡提供越來越長的視覺標記序列來提升感知能力。然而，這種增長帶來了顯著的推理成本，引發了一個基本的擴展問題：隨着多模態模型規模的擴大，實際需要多少視覺標記？在固定的視覺標記預算下，應如何分配這些標記？

現有的免訓練剪枝方法通常使用一次性代理（如解碼器注意力、視覺相似性或條件多樣性）來回答這個問題。但本文作者認為，視覺標記剪枝更適合被視為任務條件的證據搜索，尤其是在激進壓縮和跨模型尺度的情況下。他們提出的F^3A（Fast Feature-Filtering Assignment）正是一種免訓練的視覺標記剪枝路由器，它在語言模型消費圖像標記之前運行。

F^3A的工作原理如下：首先構建輕量級的問題條件線索，然後通過凍結的稀疏感知頭將這些線索與視覺網格標記匹配。接着，通過粗證據定位、局部細化、覆蓋保持競爭和未覆蓋區域恢復等步驟，將固定的視覺標記預算分配給最重要的區域。該方法無需模型訓練，無需額外的LLM前向傳播，並且保留了原有的多模態提示和推斷流程。

這項研究為高效的多模態推理提供了新的視角，特別是在需要處理高分辨率圖像或長視頻序列的場景中，有望顯著降低計算開銷，同時保持性能。F^3A的設計充分考慮了實際部署需求，其免訓練特性使得它可以直接應用於現有模型而無需額外的訓練開銷。此外，由於沒有修改原有提示和解碼流程，F^3A可以無縫集成到現有的多模態系統中。作者通過在多個基準測試上的實驗驗證了F^3A的有效性，表明在保持相似性能的前提下，可以大幅減少視覺標記的數量，從而降低推理成本。這一成果對於推動多模態模型在實際應用中的大規模部署具有重要意義。