2026-06-08站内改写2 分で読了更新: 2026-06-08

Xiaomi MiMoとTileRT、1兆パラメータモデルで毎秒1000トークン超えを汎用GPUで実現

XiaomiのMiMoチームはTileRTと協力し、MiMo-V2.5-Pro-UltraSpeedをリリース。1兆パラメータモデルを8基の汎用GPUノードで毎秒1000トークン以上でデコードします。FP4量子化、DFlash投機的デコード、TileRT実行時の3つの技術による高速化。APIトライアルは2026年6月9日～23日。

ソースMarkTechPost著者: Asif Razzaq

XiaomiのMiMoチームはTileRTシステムグループと協力し、MiMo-V2.5-Pro-UltraSpeedを発表しました。これは既存のMiMo-V2.5-Proモデル（Mixture-of-Expertsアーキテクチャ）の高速推論モードであり、単一の8基汎用GPUノード上で1兆パラメータモデルを毎秒1000トークン以上でデコードします。デモでは毎秒1200トークン近くのピークも確認されています。

この速度向上は3つの技術の協調によるものです。第一にFP4量子化。MXFP4形式を用い、MoEエキスパート層のみに適用。その他のモジュールはFP8精度を維持します。量子化対応学習（QAT）によりモデル性能はほぼ維持されます。

第二にDFlash投機的デコード。従来の投機的デコードでは小型ドラフトモデルが逐次的にトークンを生成しますが、DFlashはブロック単位のマスク並列予測により、1回のフォワードパスでブロック全体を予測します。ブロックサイズは8に制限。検証には拒否サンプリングを用い、出力は無損失です。平均受入長はコーディング6.30、数学・推論5.56、エージェント4.29。

第三にTileRTランタイム。1000 TPSの速度では各演算子がマイクロ秒単位で動作します。従来のシステムでは演算子の起動オーバーヘッドがボトルネックとなりますが、TileRTはPersistent Engine KernelをGPUに常駐させ、Warp Specializationでデータ移動、計算、通信を分割します。RMSNormやRoPEなどの小さな演算がボトルネックとなるため、システムはFP4やDFlashと協調設計されています。

UltraSpeedはレイテンシに敏感なワークロード向けです：並列推論、コーディングエージェント、リアルタイム意思決定ループ、対話型プロトタイピング（デモではスネークゲームを約10秒、macOSインターフェースを約1分で生成）。

価格は標準モデルの3倍で、速度は約10倍。APIトライアルは2026年6月9日～23日、申請制で提供。モデル重みMiMo-V2.5-Pro-FP4-DFlashはHugging Faceで、TileRTの一部モジュールはGitHubでオープンソース化されています。

利点：カスタムシリコン不要で1000+ TPS、拒否サンプリングによる無損失デコード、FP4を高耐性部分のみに適用し品質維持、オープンなチェックポイント。制限：アクセスは限定・承認制、価格は標準の3倍、自由会話での受入長低下、第三者による速度検証未実施。