小米MiMo與TileRT實現萬億引數模型每秒超1000 token生成,執行於商用GPU
小米MiMo團隊聯合TileRT推出MiMo-V2.5-Pro-UltraSpeed,在單臺8×商用GPU節點上,實現萬億引數模型每秒超1000 token的解碼速度。該技術結合FP4量化、DFlash投機解碼和TileRT執行時三大創新,無需定製晶片即可達此效能。API試用期為2026年6月9日至23日,定價為標準模型的3倍。
小米MiMo團隊與TileRT系統組合作釋出了MiMo-V2.5-Pro-UltraSpeed,這是MiMo-V2.5-Pro模型的高速推理模式。該模式在單臺配備8塊商用GPU的標準節點上,實現了萬億引數模型每秒超過1000個token的解碼速度,演示中峰值可達每秒1200 token。團隊稱這是萬億引數規模下的首次突破。
UltraSpeed並非新模型,而是針對現有MiMo-V2.5-Pro(採用混合專家MoE架構)的高速服務模式。其速度提升源於三個層次的協同最佳化:FP4量化、DFlash投機解碼和TileRT執行時。小米將這種方法稱為“極致模型-系統協同設計”。
第一層是FP4量化。萬億引數規模下,FP8或FP16權重會帶來巨大的記憶體和頻寬壓力。小米採用MXFP4格式,僅對MoE專家層進行低位寬量化,其他模組保持FP8精度。透過量化感知訓練(QAT),模型能力基本保持不變。
第二層是DFlash投機解碼。傳統投機解碼使用小型草稿模型逐個生成token,然後由大模型並行驗證。DFlash則透過塊級掩碼並行預測,讓草稿模型一次前向傳播填充整個掩碼塊。小米使用Muon二階最佳化器和模型自蒸餾調整DFlash,草稿模型僅採用滑動視窗注意力(SWA),塊大小上限為8。驗證採用拒絕取樣,確保輸出無損。不同場景的平均接受長度:程式設計6.30,數學/推理5.56,智慧體4.29。
第三層是TileRT執行時。在1000 TPS速度下,每個運算元僅執行微秒級別。傳統系統逐個啟動運算元,啟動開銷成為瓶頸。TileRT採用持久化引擎核心(Persistent Engine Kernel),常駐GPU,並透過Warp Specialization將資料移動、計算和通訊分工協調。RMSNorm、RoPE和KV快取寫入等小操作在此規模下成為瓶頸,系統在設計時與FP4和DFlash選擇協同最佳化。
UltraSpeed適用於延遲敏感場景:並行推理(如Best-of-N或樹搜尋)、程式設計智慧體、即時決策迴圈(交易訊號、欺詐攔截、即時對話)以及互動式原型開發(演示中Snake遊戲約10秒生成,macOS介面約1分鐘)。
與定製晶片方案對比:Cerebras採用晶圓級整合,Groq採用純片上SRAM,而MiMo×TileRT透過模型-系統協同在商用GPU上實現類似速度。
定價方面,UltraSpeed為標準模型價格的3倍,速度提升約10倍。API試用期為2026年6月9日至23日,需申請。模型權重MiMo-V2.5-Pro-FP4-DFlash已在Hugging Face開源,TileRT部分模組在GitHub開源。
優勢包括:無需定製晶片實現1000+ TPS;透過拒絕取樣實現無損解碼;FP4僅應用於高容忍度部分,保持質量;開放模型權重供社群驗證。侷限包括:訪問受限且需審批;定價為標準的3倍;開放對話場景下接受長度下降;第三方速度驗證尚未公開。