縮小社會-語義鴻溝:SPSD用於雲LLM推理中的邊緣端提示壓縮
一項新研究提出SPSD(情感保留語義蒸餾),一種邊緣端流水線,透過4-bit量化的小語言模型在使用者提示傳輸到雲端LLM之前進行壓縮,平均每次呼叫節省99.9個輸入token,同時保持響應質量在非劣效性範圍內。該方法有望降低雲端計算能耗。
大型語言模型(LLM)推理的預填充階段正在成為雲端計算能源成本的一個日益增長的貢獻因素。許多面向消費者支援和對話的提示包含社會性填充——諸如禮貌標記、道歉字首、重複以及建立融洽關係的語言,這些對於人類溝通很重要,但對機器推理來說邊際資訊含量較低。研究人員將這種差異稱為“社會-語義鴻溝”。
為了彌合這一鴻溝,Abhinit Sen及其同事提出了SPSD(情感保留語義蒸餾),這是一個基於邊緣的流水線,在使用者提示傳輸到雲端部署的LLM之前,使用4-bit量化的小語言模型對其進行壓縮。具體而言,該流水線利用Gemma-2-2B-Instruct(Q4_K_M)作為小語言模型,在邊緣裝置上執行,將原始提示轉化為更簡潔的形式,同時保留核心語義和情感。
在包含248條提示的語料庫上,使用Llama-3.1-8B-Instruct作為雲端評估模型的測試表明,每次蒸餾呼叫平均節省99.9個輸入token,且所有146次蒸餾呼叫均實現了正向節省。響應質量透過盲法LLM作為評判的評分進行評估,在121對比較中,蒸餾路徑在15分制上相對於原始路徑的非劣效性邊界為1分。結果顯示,43%為平局,28%蒸餾獲勝,29%原始獲勝,表明蒸餾路徑不劣於原始路徑。此外,餘弦相似性分析顯示平均值為0.682,中位數為0.712,其中54.1%的對子高於0.70的參考閾值。
為了確保安全性,安全關鍵領域的提示透過基於規則的閘道器被保守地路由至直通模式,不進行蒸餾。在所述假設下,每次呼叫的淨節能估計為70-270微瓦時。這項工作表明,裝置上的提示蒸餾可以在實際非劣效性邊界內降低雲LLM的輸入token成本,同時保持響應質量。SPSD方法有望在減少雲端計算能耗的同時,維持使用者體驗,為可持續AI部署提供了一種實用的解決方案。