可微高效運算符搜索
研究人員提出可微高效運算符搜索框架,自動尋找多模態基礎模型中的令牌縮減最優策略,在視覺令牌大幅壓縮下仍保持精度與效率的平衡。
多模態基礎模型在視覺和語言任務中取得了顯著進展,但高計算成本仍是部署的一大障礙。為了降低開銷,常用的方法是使用令牌縮減運算符,例如剪枝(刪除不重要的令牌)、合併(將多個令牌整合為一個)、池化(對令牌進行聚合)以及自適應加權(調整令牌權重)。這些運算符通常由研究人員手工設計,針對特定模型和任務優化。然而,來自北京航空航天大學等機構的研究人員提出了一種新視角:這些看似不同的運算符實際上可以統一在一個共享的運算符空間中,它們只是該空間中的不同狀態。基於這一見解,他們開發了“可微高效運算符搜索”(DEOS)框架,能夠自動搜索最優的令牌縮減策略。
DEOS框架的核心是一個可微分的搜索空間,它參數化了三個關鍵方面:哪些層需要激活令牌縮減、保留多少令牌(預算)以及如何處理縮減後的令牌信息。搜索策略在單向預算和計算成本約束下優化任務性能,從而在精度和效率之間找到最佳平衡。這一方法不僅能夠恢復現有的手工設計作為特例,還能發現超越孤立的單個運算符的混合運算符。例如,在某些層中,剪枝與池化的組合效果優於單獨使用任何一種。
實驗在多個多模態基準測試上進行,包括視覺問答和圖像描述任務。結果表明,即使在僅保留10%視覺令牌的激進壓縮下,DEOS搜索到的運算符仍能保持與原始模型接近的準確率,同時大幅降低計算開銷。這一工作表明,高效多模態推理可以從手動運算符設計轉向可微運算符搜索,為自動化模型壓縮開闢了新途徑。研究人員還指出,DEOS框架具有通用性,未來可擴展到更廣泛的模型架構和任務。相關論文於2026年6月3日提交至arXiv(編號:2606.05232),並提供了代碼和預印本供社區參考。