アトリビューション誘導とカバレッジ最大化による構造的MoE圧縮のためのプルーニング
本論文では、混合エキスパート(MoE)モデル向けの構造的プルーニングフレームワークを提案する。プルーニング比率割り当てをチャネルスコアのカバレッジ最大化問題として再定式化し、アトリベーションベースの近似で効率的に解決する。DeepSeekおよびQwen MoEモデルでの実験により、50%または25%の構造的プルーニングと4ビット量子化を組み合わせても精度を維持し、Qwen3-30B-A3Bで5.27倍のメモリ削減を達成、既存手法を上回る。
arXivに投稿された新しい論文は、混合エキスパート(MoE)モデルのデプロイにおける高メモリ消費と推論オーバーヘッドの問題に取り組むため、構造化プルーニング手法を提案している。この研究はYifu Ding氏を含む7名の著者によるもので、ICML 2026に提出されている。MoEモデルはスパースな活性化により効率的な計算拡張を実現するが、その膨大なパラメータ数ゆえに実際のデプロイコストは依然として高い。従来の圧縮手法は主にエキスパート単位で動作し、エキスパート全体の削除や粗粒度の重要度スコアによるランク付けを行っていた。しかし、このようなエキスパートレベルの判断は細粒度の冗長性を捉えるには粗すぎ、プルーニング予算の誤配分と圧縮限界を招いていた。研究チームは観察により、MoEエキスパート内の情報が少数のチャネルに高度に集中しており、重要とみなされるエキスパートでさえもかなりの冗長性を含むことを発見した。この洞察に基づき、彼らはMoEモデルに特化した構造化プルーニングフレームワークを設計した。この手法はプルーニング比率割り当てをチャネルスコアのカバレッジ最大化問題として再定式化し、アトリベーションベースの近似を用いて効率的に解く。DeepSeekおよびQwenのMoEモデルでの実験結果は、4ビット量子化と組み合わせた場合、50%または25%の構造化プルーニング下でもモデル精度が維持されることを示している。特にQwen3-30B-A3Bモデルでは、メモリ使用量を5.27倍削減し、多様なベンチマークで最先端のベースライン手法を一貫して上回った。この研究は、チャネルレベルのきめ細かいプルーニング戦略により、圧縮率とモデル性能の間でより良いバランスを実現し、MoEモデルの効率的なデプロイに新たな道を開くものである。論文全文はarXivで入手可能であり、コードや実験の再現情報も提供されている。