2026-06-27 03:30 UTC+9サイト内リライト2 分で読了更新: 2026-06-27 03:41 UTC+9

Pixel上で凍結マルチトークン予測を用いたGemini Nanoモデルの高速化

Googleの研究者は、デプロイ済みのGemini Nano v3モデルにマルチトークン予測（MTP）を導入し、バックボーンの再トレーニングなしにモバイルデバイスでの推論速度向上と消費電力削減を実現しました。Pixel 9および10シリーズに適用され、AI通知要約や校正機能で速度が50%以上向上しています。

ソースGoogle Research Blog

記事インテリジェンス

エンジニア上級

要点

バックボーンを凍結し、軽量なMTPヘッドを追加することで、別個のドラフターモデルのメモリオーバーヘッドなしにシームレスな高速化を実現。
ゼロコピーアーキテクチャにより、MTPヘッドがメインモデルのKVキャッシュを直接利用でき、メモリ使用量を130MB削減し、ドラフトプリフィルレイテンシを排除。
スタンドアローンのドラフターと比較して、Pixel 9で50%以上の速度向上を達成。特に指示追従や予測可能なテキスト構造タスクで優れる。
出力は元のモデルとビット単位で同一であり、後方互換性を維持しつつ消費電力を削減。

重要な理由

このニュースが重要なのは、バックボーンを凍結し、軽量なMTPヘッドを追加することで、別個のドラフターモデルのメモリオーバーヘッドなしにシームレスな高速化を実現ためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

このパネルは AI が生成し、正確性を確認済みです。

Googleの研究チームは、デプロイ済みのGemini Nano v3モデルにマルチトークン予測（MTP）を後付けする新たな手法を発表しました。これにより、Pixel端末上でAI機能の高速化と省エネルギー化を実現しつつ、モデルの能力や安全性を維持できます。

モバイルデバイス上の大規模言語モデル（LLM）は、厳しいエネルギー予算とメモリ制限に直面しています。標準的な自己回帰生成は一度に1トークンずつ処理するためボトルネックとなります。MTPは、複数の将来トークンを同時に予測することで、生成プロセスをドラフトと検証の2段階に分割し、推論を加速します。しかし、従来の独立したドラフターモデルは貴重なメモリを消費し、メインモデルの計算状態を活用できません。

この問題を解決するため、研究チームは新しいアーキテクチャを設計しました。既に学習済みのGemini Nano v3モデルの重みを凍結し、その最終層に軽量なTransformerヘッド（MTPヘッド）を追加します。このヘッドのみをトレーニングして将来トークンの予測誤差を最小化します。バックボーンが凍結されているため、MTPは純粋な効率最適化となり、ベースモデルの性能や安全性に影響を与えません。

さらに、ゼロコピーアーキテクチャを採用しました。MTPヘッドは独自のKVキャッシュを持たず、メインモデルの凍結KVキャッシュに直接クロスアテンションします。これにより、ドラフト段階のプリフィルレイテンシを排除し、メモリ使用量をインスタンスあたり最大130MB削減します。実験の結果、Pixel 9デバイスにおいて、同等パラメータ数の独立したドラフターと比較して、MTPはタスクに応じて50%以上の速度向上を達成しました。特に、複雑な制約のある要約や書き換えといった指示追従タスク、およびスマート返信のような構造予測可能なタスクでトークン受入率が最大55%向上しました。

この技術はすでにPixel 9およびPixel 10シリーズに展開されています。実際のワークロード（AI通知要約や校正など）では、MTPは推論パスあたり平均で約2つの追加トークンを正しく予測し、検証ステップを削減します。これにより、重いプロセッサの起動時間が減り、バッテリー寿命が改善されます。今後は、さらなるPixelデバイスへの統合や、並列デコードなど代替アーキテクチャの探求を通じて、エッジデバイス上のAI効率をさらに高める計画です。