2026-06-27 02:30 UTC+8站内改写1 分钟阅读更新: 2026-06-27 02:41 UTC+8

在Pixel上通过冻结的多token预测加速Gemini Nano模型

Google研究人员提出了一种方法，将多token预测（MTP）改造到已部署的Gemini Nano v3模型上，无需重新训练主干网络，从而在移动设备上实现更快的推理速度和更低的能耗。该方法在Pixel 9和10系列上已部署，使AI通知摘要和校对等功能速度提升50%以上。

来源Google Research Blog

文章情报

工程师进阶

要点

通过冻结的主干网络和轻量级MTP头部，实现了对现有模型的无缝加速，避免了单独草稿模型的内存开销。
零拷贝架构让MTP头部直接利用主模型的KV缓存，减少了130MB内存占用，并消除了草稿预填充延迟。
相比独立的草稿模型，MTP在Pixel 9上实现了50%以上的速度提升，尤其在指令遵循和可预测文本结构任务中表现更优。
该技术保持输出与原始模型逐位相同，确保了向后兼容性，并降低了能耗。

为什么重要

这条新闻值得关注，因为通过冻结的主干网络和轻量级MTP头部，实现了对现有模型的无缝加速，避免了单独草稿模型的内存开销。

技术影响

可能影响模型选型、推理成本、产品能力和评测基准。

本面板由 AI 生成，经人工审核。

Google研究人员近日宣布，他们成功将多token预测（Multi-Token Prediction，简称MTP）技术应用于已部署的Gemini Nano v3模型，显著提升了Pixel设备上AI功能的运行效率。这一成果使得诸如通知摘要和文本校对等基于AI的功能在移动设备上运行得更快、更省电，同时无需牺牲用户隐私或模型准确性。

移动设备上的大语言模型（LLM）面临着严格的能源和内存限制。传统的自回归生成模式每次只生成一个token，导致处理瓶颈。而MTP通过让模型一次预测多个未来token，将生成过程分解为草稿和验证两个阶段，从而加速推理。然而，传统的单独草稿模型会占用宝贵的内存，且无法利用主模型的计算状态。

为了解决这些问题，研究团队设计了一种全新的架构：在不修改已训练好的Gemini Nano v3模型权重（即冻结主干网络）的前提下，在模型顶层附加一个轻量级的Transformer头部（MTP头部）。这个头部专门训练来预测未来token，而主干网络保持不变。由于冻结的主干网络，这种方法纯粹是一种效率优化，不会影响模型原有的能力和安全性。

更关键的是，他们实现了“零拷贝”架构。MTP头部不维护自己的键值缓存，而是直接交叉关注到主模型的冻结KV缓存中。这一设计避免了重复计算，消除了草稿阶段的预填充延迟，并将每个实例的内存占用降低了高达130MB。实验表明，在Pixel 9设备上，相比参数数量相当的独立草稿模型，MTP头部在不同任务中实现了50%以上的速度提升。特别是在指令遵循任务（如复杂约束下的摘要或重写）和结构可预测的任务（如智能回复）中，MTP的token接受率提升了55%。

目前，这一技术已在Pixel 9和Pixel 10系列上部署。在实际应用如AI通知摘要和校对中，MTP每次推理平均能正确预测近两个额外token，从而减少了验证步骤，降低了处理器唤醒时间，改善了电池续航。未来，研究团队计划将MTP集成到更多Pixel设备中，并探索并行解码等替代架构，以进一步提升边缘设备上的AI效率。