2026-06-05 12:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

可微高效運算符搜索

研究人員提出可微高效運算符搜索框架，自動尋找多模態基礎模型中的令牌縮減最優策略，在視覺令牌大幅壓縮下仍保持精度與效率的平衡。

來源arXiv Machine Learning作者: Xiaohuan Pei, Jiyuan Zhang, Yuanfan Guo, Weiguo Feng, Tao Huang, Cho-Jui Hsieh, Chang Xu

多模態基礎模型在視覺和語言任務中取得了顯著進展，但高計算成本仍是部署的一大障礙。為了降低開銷，常用的方法是使用令牌縮減運算符，例如剪枝（刪除不重要的令牌）、合併（將多個令牌整合為一個）、池化（對令牌進行聚合）以及自適應加權（調整令牌權重）。這些運算符通常由研究人員手工設計，針對特定模型和任務優化。然而，來自北京航空航天大學等機構的研究人員提出了一種新視角：這些看似不同的運算符實際上可以統一在一個共享的運算符空間中，它們只是該空間中的不同狀態。基於這一見解，他們開發了“可微高效運算符搜索”（DEOS）框架，能夠自動搜索最優的令牌縮減策略。

DEOS框架的核心是一個可微分的搜索空間，它參數化了三個關鍵方面：哪些層需要激活令牌縮減、保留多少令牌（預算）以及如何處理縮減後的令牌信息。搜索策略在單向預算和計算成本約束下優化任務性能，從而在精度和效率之間找到最佳平衡。這一方法不僅能夠恢復現有的手工設計作為特例，還能發現超越孤立的單個運算符的混合運算符。例如，在某些層中，剪枝與池化的組合效果優於單獨使用任何一種。

實驗在多個多模態基準測試上進行，包括視覺問答和圖像描述任務。結果表明，即使在僅保留10%視覺令牌的激進壓縮下，DEOS搜索到的運算符仍能保持與原始模型接近的準確率，同時大幅降低計算開銷。這一工作表明，高效多模態推理可以從手動運算符設計轉向可微運算符搜索，為自動化模型壓縮開闢了新途徑。研究人員還指出，DEOS框架具有通用性，未來可擴展到更廣泛的模型架構和任務。相關論文於2026年6月3日提交至arXiv（編號：2606.05232），並提供了代碼和預印本供社區參考。