多模态语言模型需要多少视觉标记?使用F^3A扩展视觉标记剪枝
随着多模态模型规模的增长,向语言骨干网络提供的视觉标记序列越来越长,导致推理成本上升。本文提出了一个基本问题:实际需要多少视觉标记,以及在固定预算下如何分配?现有免训练剪枝方法使用一次性代理,但作者认为视觉标记剪枝应视为任务条件证据搜索。他们提出了F^3A,一种在语言模型消费图像标记之前运行的免训练路由器,通过轻量级问题条件线索、冻结稀疏感知头匹配以及粗证据定位、局部细化、覆盖保持竞争和未覆盖区域恢复来分配固定预算。F^3A无需模型训练或额外LLM前向传播,保留了原有的多模态提示和推断流程。
多模态语言模型(如视觉-语言模型)通过向语言骨干网络提供越来越长的视觉标记序列来提升感知能力。然而,这种增长带来了显著的推理成本,引发了一个基本的扩展问题:随着多模态模型规模的扩大,实际需要多少视觉标记?在固定的视觉标记预算下,应如何分配这些标记?
现有的免训练剪枝方法通常使用一次性代理(如解码器注意力、视觉相似性或条件多样性)来回答这个问题。但本文作者认为,视觉标记剪枝更适合被视为任务条件的证据搜索,尤其是在激进压缩和跨模型尺度的情况下。他们提出的F^3A(Fast Feature-Filtering Assignment)正是一种免训练的视觉标记剪枝路由器,它在语言模型消费图像标记之前运行。
F^3A的工作原理如下:首先构建轻量级的问题条件线索,然后通过冻结的稀疏感知头将这些线索与视觉网格标记匹配。接着,通过粗证据定位、局部细化、覆盖保持竞争和未覆盖区域恢复等步骤,将固定的视觉标记预算分配给最重要的区域。该方法无需模型训练,无需额外的LLM前向传播,并且保留了原有的多模态提示和推断流程。
这项研究为高效的多模态推理提供了新的视角,特别是在需要处理高分辨率图像或长视频序列的场景中,有望显著降低计算开销,同时保持性能。F^3A的设计充分考虑了实际部署需求,其免训练特性使得它可以直接应用于现有模型而无需额外的训练开销。此外,由于没有修改原有提示和解码流程,F^3A可以无缝集成到现有的多模态系统中。作者通过在多个基准测试上的实验验证了F^3A的有效性,表明在保持相似性能的前提下,可以大幅减少视觉标记的数量,从而降低推理成本。这一成果对于推动多模态模型在实际应用中的大规模部署具有重要意义。