2026-06-27 02:30 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-27 02:41 UTC+8

在Pixel上透過凍結的多token預測加速Gemini Nano模型

Google研究人員提出了一種方法，將多token預測（MTP）改造到已部署的Gemini Nano v3模型上，無需重新訓練主幹網路，從而在移動裝置上實現更快的推理速度和更低的能耗。該方法在Pixel 9和10系列上已部署，使AI通知摘要和校對等功能速度提升50%以上。

來源Google Research Blog

文章情報

工程師進階

要點

透過凍結的主幹網路和輕量級MTP頭部，實現了對現有模型的無縫加速，避免了單獨草稿模型的記憶體開銷。
零複製架構讓MTP頭部直接利用主模型的KV快取，減少了130MB記憶體佔用，並消除了草稿預填充延遲。
相比獨立的草稿模型，MTP在Pixel 9上實現了50%以上的速度提升，尤其在指令遵循和可預測文本結構任務中表現更優。
該技術保持輸出與原始模型逐位相同，確保了向後相容性，並降低了能耗。

為什麼重要

這條新聞值得關注，因為透過凍結的主幹網路和輕量級MTP頭部，實現了對現有模型的無縫加速，避免了單獨草稿模型的記憶體開銷。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

本面板由 AI 生成，經人工審核。

Google研究人員近日宣佈，他們成功將多token預測（Multi-Token Prediction，簡稱MTP）技術應用於已部署的Gemini Nano v3模型，顯著提升了Pixel裝置上AI功能的執行效率。這一成果使得諸如通知摘要和文本校對等基於AI的功能在移動裝置上執行得更快、更省電，同時無需犧牲使用者隱私或模型準確性。

移動裝置上的大語言模型（LLM）面臨著嚴格的能源和記憶體限制。傳統的自迴歸生成模式每次只生成一個token，導致處理瓶頸。而MTP透過讓模型一次預測多個未來token，將生成過程分解為草稿和驗證兩個階段，從而加速推理。然而，傳統的單獨草稿模型會佔用寶貴的記憶體，且無法利用主模型的計算狀態。

為了解決這些問題，研究團隊設計了一種全新的架構：在不修改已訓練好的Gemini Nano v3模型權重（即凍結主幹網路）的前提下，在模型頂層附加一個輕量級的Transformer頭部（MTP頭部）。這個頭部專門訓練來預測未來token，而主幹網路保持不變。由於凍結的主幹網路，這種方法純粹是一種效率最佳化，不會影響模型原有的能力和安全性。

更關鍵的是，他們實現了“零複製”架構。MTP頭部不維護自己的鍵值快取，而是直接交叉關注到主模型的凍結KV快取中。這一設計避免了重複計算，消除了草稿階段的預填充延遲，並將每個例項的記憶體佔用降低了高達130MB。實驗表明，在Pixel 9裝置上，相比引數數量相當的獨立草稿模型，MTP頭部在不同任務中實現了50%以上的速度提升。特別是在指令遵循任務（如複雜約束下的摘要或重寫）和結構可預測的任務（如智慧回覆）中，MTP的token接受率提升了55%。

目前，這一技術已在Pixel 9和Pixel 10系列上部署。在實際應用如AI通知摘要和校對中，MTP每次推理平均能正確預測近兩個額外token，從而減少了驗證步驟，降低了處理器喚醒時間，改善了電池續航。未來，研究團隊計劃將MTP整合到更多Pixel裝置中，並探索並行解碼等替代架構，以進一步提升邊緣裝置上的AI效率。