2026-06-05 12:00 UTC+8站内改写1 分钟阅读更新: 2026-06-30 21:03 UTC+8

可微高效运算符搜索

研究人员提出可微高效运算符搜索框架，自动寻找多模态基础模型中的令牌缩减最优策略，在视觉令牌大幅压缩下仍保持精度与效率的平衡。

来源arXiv Machine Learning作者: Xiaohuan Pei, Jiyuan Zhang, Yuanfan Guo, Weiguo Feng, Tao Huang, Cho-Jui Hsieh, Chang Xu

多模态基础模型在视觉和语言任务中取得了显著进展，但高计算成本仍是部署的一大障碍。为了降低开销，常用的方法是使用令牌缩减运算符，例如剪枝（删除不重要的令牌）、合并（将多个令牌整合为一个）、池化（对令牌进行聚合）以及自适应加权（调整令牌权重）。这些运算符通常由研究人员手工设计，针对特定模型和任务优化。然而，来自北京航空航天大学等机构的研究人员提出了一种新视角：这些看似不同的运算符实际上可以统一在一个共享的运算符空间中，它们只是该空间中的不同状态。基于这一见解，他们开发了“可微高效运算符搜索”（DEOS）框架，能够自动搜索最优的令牌缩减策略。

DEOS框架的核心是一个可微分的搜索空间，它参数化了三个关键方面：哪些层需要激活令牌缩减、保留多少令牌（预算）以及如何处理缩减后的令牌信息。搜索策略在单向预算和计算成本约束下优化任务性能，从而在精度和效率之间找到最佳平衡。这一方法不仅能够恢复现有的手工设计作为特例，还能发现超越孤立的单个运算符的混合运算符。例如，在某些层中，剪枝与池化的组合效果优于单独使用任何一种。

实验在多个多模态基准测试上进行，包括视觉问答和图像描述任务。结果表明，即使在仅保留10%视觉令牌的激进压缩下，DEOS搜索到的运算符仍能保持与原始模型接近的准确率，同时大幅降低计算开销。这一工作表明，高效多模态推理可以从手动运算符设计转向可微运算符搜索，为自动化模型压缩开辟了新途径。研究人员还指出，DEOS框架具有通用性，未来可扩展到更广泛的模型架构和任务。相关论文于2026年6月3日提交至arXiv（编号：2606.05232），并提供了代码和预印本供社区参考。