在Pixel上通过冻结的多token预测加速Gemini Nano模型
Google研究人员提出了一种方法,将多token预测(MTP)改造到已部署的Gemini Nano v3模型上,无需重新训练主干网络,从而在移动设备上实现更快的推理速度和更低的能耗。该方法在Pixel 9和10系列上已部署,使AI通知摘要和校对等功能速度提升50%以上。
Google研究人员近日宣布,他们成功将多token预测(Multi-Token Prediction,简称MTP)技术应用于已部署的Gemini Nano v3模型,显著提升了Pixel设备上AI功能的运行效率。这一成果使得诸如通知摘要和文本校对等基于AI的功能在移动设备上运行得更快、更省电,同时无需牺牲用户隐私或模型准确性。
移动设备上的大语言模型(LLM)面临着严格的能源和内存限制。传统的自回归生成模式每次只生成一个token,导致处理瓶颈。而MTP通过让模型一次预测多个未来token,将生成过程分解为草稿和验证两个阶段,从而加速推理。然而,传统的单独草稿模型会占用宝贵的内存,且无法利用主模型的计算状态。
为了解决这些问题,研究团队设计了一种全新的架构:在不修改已训练好的Gemini Nano v3模型权重(即冻结主干网络)的前提下,在模型顶层附加一个轻量级的Transformer头部(MTP头部)。这个头部专门训练来预测未来token,而主干网络保持不变。由于冻结的主干网络,这种方法纯粹是一种效率优化,不会影响模型原有的能力和安全性。
更关键的是,他们实现了“零拷贝”架构。MTP头部不维护自己的键值缓存,而是直接交叉关注到主模型的冻结KV缓存中。这一设计避免了重复计算,消除了草稿阶段的预填充延迟,并将每个实例的内存占用降低了高达130MB。实验表明,在Pixel 9设备上,相比参数数量相当的独立草稿模型,MTP头部在不同任务中实现了50%以上的速度提升。特别是在指令遵循任务(如复杂约束下的摘要或重写)和结构可预测的任务(如智能回复)中,MTP的token接受率提升了55%。
目前,这一技术已在Pixel 9和Pixel 10系列上部署。在实际应用如AI通知摘要和校对中,MTP每次推理平均能正确预测近两个额外token,从而减少了验证步骤,降低了处理器唤醒时间,改善了电池续航。未来,研究团队计划将MTP集成到更多Pixel设备中,并探索并行解码等替代架构,以进一步提升边缘设备上的AI效率。