AI News HubLIVE
站内改写2 分で読了

社会-意味ギャップの解消:クラウドLLM推論におけるエッジベースのプロンプト圧縮のためのSPSD

新しい研究が提案するSPSD(感情保持意味蒸留)は、エッジデバイス上で4ビット量子化された小言語モデルを使用して、ユーザーのプロンプトから社会的な装飾(丁寧語、繰り返しなど)を除去し、クラウドLLMに送信する前に圧縮するパイプラインです。平均99.9トークンの削減と、応答品質の非劣性を達成し、クラウドのエネルギーコスト削減に貢献します。

ソースarXiv Machine Learning著者: Abhinit Sen, Ajeet Kumar, Manaranjan Pradhan

大規模言語モデル(LLM)推論のプリフィル段階は、クラウドスケールのエネルギーコストの増大要因となっています。多くのコンシューマーサポートや会話型プロンプトには、社会的スキャフォールディング(丁寧表現、謝罪の前置き、繰り返し、関係構築の言葉)が含まれており、これらは人間のコミュニケーションには重要ですが、機械推論にとっては低い限界情報量しか持ちません。研究者らはこの乖離を「社会-意味ギャップ」と呼んでいます。

このギャップを埋めるため、Abhinit SenらはSPSD(感情保持意味蒸留)を提案しました。これはエッジベースのパイプラインで、ユーザープロンプトをクラウドデプロイされたLLMに送信する前に、4ビット量子化された小言語モデル(SLM)を用いて圧縮します。具体的には、Gemma-2-2B-Instruct(Q4_K_M)をSLMとしてエッジデバイス上で動作させ、元のプロンプトをより簡潔な形に変換しつつ、核心的な意味と感情を保持します。

248件のプロンプトからなるコーパスで、Llama-3.1-8B-Instructをクラウド評価モデルとして用いた評価では、蒸留呼び出しあたり平均99.9トークンの削減が達成され、146回の全蒸留呼び出しで正の削減効果が見られました。応答品質は、ブラインドのLLMアズジャッジ(LLM-as-judge)スコアリングにより121組で評価され、15点満点のルーブリックにおいて事前指定された1点の非劣性マージン内で非劣性が確認されました。判定では43%が引き分け、28%が蒸留側の勝利、29%が生のプロンプト側の勝利でした。コサイン類似度は平均0.682、中央値0.712で、54.1%のペアが0.70の参照しきい値を上回りました。

安全性を確保するため、安全クリティカルなドメインのプロンプトはルールベースのゲートを介してパススルー(蒸留せずそのまま送信)されます。述べられた前提条件の下で、1呼び出しあたりの正味エネルギー削減は70-270μWhと推定されています。この研究は、オンデバイスでのプロンプト蒸留が、実用的な非劣性マージン内でクラウドLLMの入力トークンコストを削減し、応答品質を維持できることを示しています。SPSDは、持続可能なAI展開に向けた実用的なソリューションを提供し、エネルギー消費を削減しつつユーザー体験を維持する可能性を秘めています。