可微高效运算符搜索
研究人员提出可微高效运算符搜索框架,自动寻找多模态基础模型中的令牌缩减最优策略,在视觉令牌大幅压缩下仍保持精度与效率的平衡。
多模态基础模型在视觉和语言任务中取得了显著进展,但高计算成本仍是部署的一大障碍。为了降低开销,常用的方法是使用令牌缩减运算符,例如剪枝(删除不重要的令牌)、合并(将多个令牌整合为一个)、池化(对令牌进行聚合)以及自适应加权(调整令牌权重)。这些运算符通常由研究人员手工设计,针对特定模型和任务优化。然而,来自北京航空航天大学等机构的研究人员提出了一种新视角:这些看似不同的运算符实际上可以统一在一个共享的运算符空间中,它们只是该空间中的不同状态。基于这一见解,他们开发了“可微高效运算符搜索”(DEOS)框架,能够自动搜索最优的令牌缩减策略。
DEOS框架的核心是一个可微分的搜索空间,它参数化了三个关键方面:哪些层需要激活令牌缩减、保留多少令牌(预算)以及如何处理缩减后的令牌信息。搜索策略在单向预算和计算成本约束下优化任务性能,从而在精度和效率之间找到最佳平衡。这一方法不仅能够恢复现有的手工设计作为特例,还能发现超越孤立的单个运算符的混合运算符。例如,在某些层中,剪枝与池化的组合效果优于单独使用任何一种。
实验在多个多模态基准测试上进行,包括视觉问答和图像描述任务。结果表明,即使在仅保留10%视觉令牌的激进压缩下,DEOS搜索到的运算符仍能保持与原始模型接近的准确率,同时大幅降低计算开销。这一工作表明,高效多模态推理可以从手动运算符设计转向可微运算符搜索,为自动化模型压缩开辟了新途径。研究人员还指出,DEOS框架具有通用性,未来可扩展到更广泛的模型架构和任务。相关论文于2026年6月3日提交至arXiv(编号:2606.05232),并提供了代码和预印本供社区参考。