2026-06-18站内改写2 分で読了更新: 2026-06-18

アトリビューション誘導とカバレッジ最大化による構造的MoE圧縮のためのプルーニング

本論文では、混合エキスパート（MoE）モデル向けの構造的プルーニングフレームワークを提案する。プルーニング比率割り当てをチャネルスコアのカバレッジ最大化問題として再定式化し、アトリベーションベースの近似で効率的に解決する。DeepSeekおよびQwen MoEモデルでの実験により、50%または25%の構造的プルーニングと4ビット量子化を組み合わせても精度を維持し、Qwen3-30B-A3Bで5.27倍のメモリ削減を達成、既存手法を上回る。

ソースarXiv Machine Learning著者: Yifu Ding, Jiacheng Wang, Ge Yang, Yongcheng Jing, Jinyang Guo, Xianglong Liu, Dacheng Tao

記事インテリジェンス

エンジニア上級

要点

MoEエキスパート内の情報は少数のチャネルに集中し、重要とみなされるエキスパートにも大きな冗長性があることを発見
チャネルレベルの構造的プルーニングフレームワークを提案し、プルーニング比率割り当てをカバレッジ最大化問題としてモデル化
DeepSeekおよびQwen MoEモデルで検証、4ビット量子化と組み合わせて50%または25%のプルーニング下で精度を維持
Qwen3-30B-A3Bで5.27倍のメモリ圧縮を達成し、最新のベースラインを凌駕

重要な理由

このニュースが重要なのは、MoEエキスパート内の情報は少数のチャネルに集中し、重要とみなされるエキスパートにも大きな冗長性があることを発見ためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

arXivに投稿された新しい論文は、混合エキスパート（MoE）モデルのデプロイにおける高メモリ消費と推論オーバーヘッドの問題に取り組むため、構造化プルーニング手法を提案している。この研究はYifu Ding氏を含む7名の著者によるもので、ICML 2026に提出されている。MoEモデルはスパースな活性化により効率的な計算拡張を実現するが、その膨大なパラメータ数ゆえに実際のデプロイコストは依然として高い。従来の圧縮手法は主にエキスパート単位で動作し、エキスパート全体の削除や粗粒度の重要度スコアによるランク付けを行っていた。しかし、このようなエキスパートレベルの判断は細粒度の冗長性を捉えるには粗すぎ、プルーニング予算の誤配分と圧縮限界を招いていた。研究チームは観察により、MoEエキスパート内の情報が少数のチャネルに高度に集中しており、重要とみなされるエキスパートでさえもかなりの冗長性を含むことを発見した。この洞察に基づき、彼らはMoEモデルに特化した構造化プルーニングフレームワークを設計した。この手法はプルーニング比率割り当てをチャネルスコアのカバレッジ最大化問題として再定式化し、アトリベーションベースの近似を用いて効率的に解く。DeepSeekおよびQwenのMoEモデルでの実験結果は、4ビット量子化と組み合わせた場合、50%または25%の構造化プルーニング下でもモデル精度が維持されることを示している。特にQwen3-30B-A3Bモデルでは、メモリ使用量を5.27倍削減し、多様なベンチマークで最先端のベースライン手法を一貫して上回った。この研究は、チャネルレベルのきめ細かいプルーニング戦略により、圧縮率とモデル性能の間でより良いバランスを実現し、MoEモデルの効率的なデプロイに新たな道を開くものである。論文全文はarXivで入手可能であり、コードや実験の再現情報も提供されている。