AI News HubLIVE
站内改写2 分で読了

MODE:MoEマルチモーダル大規模言語モデルのためのモダリティ分解エキスパートレベル混合精度量子化

混合エキスパートマルチモーダル大規模言語モデル(MoE-MLLMs)は優れた性能を持つが、GPUメモリ消費が大きく、圧縮が不可欠である。既存のエキスパートレベルの混合精度量子化はMoE-MLLMsに適用すると性能が低下する。これはエキスパート重要度推定における2つのバイアスに起因する:クロスモーダルレベルで視覚トークンが支配的であり、テキスト関連エキスパートが覆い隠されること、およびビジョン内部で冗長トークンが頻度統計を歪めること。MODEはモダリティごとに選択頻度を分解し、冗長トークンをフィルタリングし、モダリティごとの量子化感度を評価し、整数線形計画法でエキスパートごとにビット幅を割り当てる。W3A16で平均性能損失を2.9%以内に抑える。

ソースarXiv Machine Learning著者: Yuanteng Chen, Peisong Wang, Zhilei Liu, Nanxin Zeng, Yuantian Shao, Shiqiang Lang, Tao Liu, Chuangyi Li, Qinghao Hu, Gang Li, Jing Liu, Jian Cheng

混合エキスパートマルチモーダル大規模言語モデル(MoE-MLLMs)は、スパースなエキスパートルーティングとマルチモーダル処理を組み合わせ、複雑なタスクで優れた性能を発揮するが、GPUメモリ消費が大きく、展開には圧縮が不可欠である。後訓練量子化(PTQ)手法のうち、エキスパートレベルの混合精度量子化はMoE-LLMsに有効であることが示されているが、MoE-MLLMsに適用すると顕著な性能低下が生じる。Yuanteng Chenらの研究チームは、その原因がエキスパート重要度推定における2つのバイアスにあることを特定した。

第一に、クロスモーダルレベルでは、視覚トークンの数的優位性によりエキスパート選択頻度が視覚モダリティに支配され、テキストモダリティに重要なエキスパートが覆い隠される。第二に、ビジョン内部レベルでは、冗長な視覚トークンの多さが頻度統計をさらに歪め、有益な視覚コンテンツに重要なエキスパートを不明瞭にする。これらのバイアスにより、従来の頻度ベースの推定手法は無効となり、エキスパートに適切な量子化精度を割り当てることができない。

この問題に対処するため、研究チームはMODE(モダリティ分解エキスパートレベル混合精度量子化)フレームワークを提案した。MODEの核心は以下の通りである:まず、エキスパート選択頻度をモダリティごとに分解し、視覚とテキストのエキスパートの重要度を区別する。次に、冗長な視覚トークンをフィルタリングしてノイズ除去された視覚頻度を取得し、視覚エキスパートの真の貢献をより正確に反映する。さらに、モダリティごとの量子化感度を評価し、頻度ベースの推定を補完する信号として利用する。これらの信号を整数線形計画法(ILP)に統合し、所与のビット予算の下で各エキスパートに最適なビット幅を割り当てる。

広範な実験により、MODEはMoE-MLLMsに特に適していることが示された。W3A16(重み3ビット、アクティベーション16ビット)設定では、平均性能損失を2.9%以内に抑え、極端な2ビット設定ではさらに大きな利得が得られた。この研究は、マルチモーダル大規模モデルの効率的な展開に新たな道を開き、リアルタイムアプリケーションやリソース制約のあるデバイスへのMoE-MLLMsの導入を促進することが期待される。