AI News HubLIVE
站内改写1 分钟阅读

缩小社会-语义鸿沟:SPSD用于云LLM推理中的边缘端提示压缩

一项新研究提出SPSD(情感保留语义蒸馏),一种边缘端流水线,通过4-bit量化的小语言模型在用户提示传输到云端LLM之前进行压缩,平均每次调用节省99.9个输入token,同时保持响应质量在非劣效性范围内。该方法有望降低云计算能耗。

来源arXiv Machine Learning作者: Abhinit Sen, Ajeet Kumar, Manaranjan Pradhan

大型语言模型(LLM)推理的预填充阶段正在成为云计算能源成本的一个日益增长的贡献因素。许多面向消费者支持和对话的提示包含社会性填充——诸如礼貌标记、道歉前缀、重复以及建立融洽关系的语言,这些对于人类沟通很重要,但对机器推理来说边际信息含量较低。研究人员将这种差异称为“社会-语义鸿沟”。

为了弥合这一鸿沟,Abhinit Sen及其同事提出了SPSD(情感保留语义蒸馏),这是一个基于边缘的流水线,在用户提示传输到云端部署的LLM之前,使用4-bit量化的小语言模型对其进行压缩。具体而言,该流水线利用Gemma-2-2B-Instruct(Q4_K_M)作为小语言模型,在边缘设备上运行,将原始提示转化为更简洁的形式,同时保留核心语义和情感。

在包含248条提示的语料库上,使用Llama-3.1-8B-Instruct作为云端评估模型的测试表明,每次蒸馏调用平均节省99.9个输入token,且所有146次蒸馏调用均实现了正向节省。响应质量通过盲法LLM作为评判的评分进行评估,在121对比较中,蒸馏路径在15分制上相对于原始路径的非劣效性边界为1分。结果显示,43%为平局,28%蒸馏获胜,29%原始获胜,表明蒸馏路径不劣于原始路径。此外,余弦相似性分析显示平均值为0.682,中位数为0.712,其中54.1%的对子高于0.70的参考阈值。

为了确保安全性,安全关键领域的提示通过基于规则的网关被保守地路由至直通模式,不进行蒸馏。在所述假设下,每次调用的净节能估计为70-270微瓦时。这项工作表明,设备上的提示蒸馏可以在实际非劣效性边界内降低云LLM的输入token成本,同时保持响应质量。SPSD方法有望在减少云计算能耗的同时,维持用户体验,为可持续AI部署提供了一种实用的解决方案。