小米MiMo與TileRT實現萬億參數模型每秒超1000 token生成,運行於商用GPU
小米MiMo團隊聯合TileRT推出MiMo-V2.5-Pro-UltraSpeed,在單台8×商用GPU節點上,實現萬億參數模型每秒超1000 token的解碼速度。該技術結合FP4量化、DFlash投機解碼和TileRT運行時三大創新,無需定製芯片即可達此性能。API試用期為2026年6月9日至23日,定價為標準模型的3倍。
小米MiMo團隊與TileRT系統組合作發佈了MiMo-V2.5-Pro-UltraSpeed,這是MiMo-V2.5-Pro模型的高速推理模式。該模式在單台配備8塊商用GPU的標準節點上,實現了萬億參數模型每秒超過1000個token的解碼速度,演示中峯值可達每秒1200 token。團隊稱這是萬億參數規模下的首次突破。
UltraSpeed並非新模型,而是針對現有MiMo-V2.5-Pro(採用混合專家MoE架構)的高速服務模式。其速度提升源於三個層次的協同優化:FP4量化、DFlash投機解碼和TileRT運行時。小米將這種方法稱為“極致模型-系統協同設計”。
第一層是FP4量化。萬億參數規模下,FP8或FP16權重會帶來巨大的內存和帶寬壓力。小米採用MXFP4格式,僅對MoE專家層進行低位寬量化,其他模塊保持FP8精度。通過量化感知訓練(QAT),模型能力基本保持不變。
第二層是DFlash投機解碼。傳統投機解碼使用小型草稿模型逐個生成token,然後由大模型並行驗證。DFlash則通過塊級掩碼並行預測,讓草稿模型一次前向傳播填充整個掩碼塊。小米使用Muon二階優化器和模型自蒸餾調整DFlash,草稿模型僅採用滑動窗口注意力(SWA),塊大小上限為8。驗證採用拒絕採樣,確保輸出無損。不同場景的平均接受長度:編程6.30,數學/推理5.56,智能體4.29。
第三層是TileRT運行時。在1000 TPS速度下,每個算子僅運行微秒級別。傳統系統逐個啓動算子,啓動開銷成為瓶頸。TileRT採用持久化引擎內核(Persistent Engine Kernel),常駐GPU,並通過Warp Specialization將數據移動、計算和通信分工協調。RMSNorm、RoPE和KV緩存寫入等小操作在此規模下成為瓶頸,系統在設計時與FP4和DFlash選擇協同優化。
UltraSpeed適用於延遲敏感場景:並行推理(如Best-of-N或樹搜索)、編程智能體、實時決策循環(交易信號、欺詐攔截、實時對話)以及交互式原型開發(演示中Snake遊戲約10秒生成,macOS界面約1分鐘)。
與定製芯片方案對比:Cerebras採用晶圓級集成,Groq採用純片上SRAM,而MiMo×TileRT通過模型-系統協同在商用GPU上實現類似速度。
定價方面,UltraSpeed為標準模型價格的3倍,速度提升約10倍。API試用期為2026年6月9日至23日,需申請。模型權重MiMo-V2.5-Pro-FP4-DFlash已在Hugging Face開源,TileRT部分模塊在GitHub開源。
優勢包括:無需定製芯片實現1000+ TPS;通過拒絕採樣實現無損解碼;FP4僅應用於高容忍度部分,保持質量;開放模型權重供社區驗證。侷限包括:訪問受限且需審批;定價為標準的3倍;開放對話場景下接受長度下降;第三方速度驗證尚未公開。