Xiaomi MiMoとTileRT、1兆パラメータモデルで毎秒1000トークン超えを汎用GPUで実現
XiaomiのMiMoチームはTileRTと協力し、MiMo-V2.5-Pro-UltraSpeedをリリース。1兆パラメータモデルを8基の汎用GPUノードで毎秒1000トークン以上でデコードします。FP4量子化、DFlash投機的デコード、TileRT実行時の3つの技術による高速化。APIトライアルは2026年6月9日~23日。
XiaomiのMiMoチームはTileRTシステムグループと協力し、MiMo-V2.5-Pro-UltraSpeedを発表しました。これは既存のMiMo-V2.5-Proモデル(Mixture-of-Expertsアーキテクチャ)の高速推論モードであり、単一の8基汎用GPUノード上で1兆パラメータモデルを毎秒1000トークン以上でデコードします。デモでは毎秒1200トークン近くのピークも確認されています。
この速度向上は3つの技術の協調によるものです。第一にFP4量子化。MXFP4形式を用い、MoEエキスパート層のみに適用。その他のモジュールはFP8精度を維持します。量子化対応学習(QAT)によりモデル性能はほぼ維持されます。
第二にDFlash投機的デコード。従来の投機的デコードでは小型ドラフトモデルが逐次的にトークンを生成しますが、DFlashはブロック単位のマスク並列予測により、1回のフォワードパスでブロック全体を予測します。ブロックサイズは8に制限。検証には拒否サンプリングを用い、出力は無損失です。平均受入長はコーディング6.30、数学・推論5.56、エージェント4.29。
第三にTileRTランタイム。1000 TPSの速度では各演算子がマイクロ秒単位で動作します。従来のシステムでは演算子の起動オーバーヘッドがボトルネックとなりますが、TileRTはPersistent Engine KernelをGPUに常駐させ、Warp Specializationでデータ移動、計算、通信を分割します。RMSNormやRoPEなどの小さな演算がボトルネックとなるため、システムはFP4やDFlashと協調設計されています。
UltraSpeedはレイテンシに敏感なワークロード向けです:並列推論、コーディングエージェント、リアルタイム意思決定ループ、対話型プロトタイピング(デモではスネークゲームを約10秒、macOSインターフェースを約1分で生成)。
価格は標準モデルの3倍で、速度は約10倍。APIトライアルは2026年6月9日~23日、申請制で提供。モデル重みMiMo-V2.5-Pro-FP4-DFlashはHugging Faceで、TileRTの一部モジュールはGitHubでオープンソース化されています。
利点:カスタムシリコン不要で1000+ TPS、拒否サンプリングによる無損失デコード、FP4を高耐性部分のみに適用し品質維持、オープンなチェックポイント。制限:アクセスは限定・承認制、価格は標準の3倍、自由会話での受入長低下、第三者による速度検証未実施。