2026-06-08站内改写2 分鐘閱讀更新: 2026-06-08

小米MiMo與TileRT實現萬億引數模型每秒超1000 token生成，執行於商用GPU

小米MiMo團隊聯合TileRT推出MiMo-V2.5-Pro-UltraSpeed，在單臺8×商用GPU節點上，實現萬億引數模型每秒超1000 token的解碼速度。該技術結合FP4量化、DFlash投機解碼和TileRT執行時三大創新，無需定製晶片即可達此效能。API試用期為2026年6月9日至23日，定價為標準模型的3倍。

來源MarkTechPost作者: Asif Razzaq

小米MiMo團隊與TileRT系統組合作釋出了MiMo-V2.5-Pro-UltraSpeed，這是MiMo-V2.5-Pro模型的高速推理模式。該模式在單臺配備8塊商用GPU的標準節點上，實現了萬億引數模型每秒超過1000個token的解碼速度，演示中峰值可達每秒1200 token。團隊稱這是萬億引數規模下的首次突破。

UltraSpeed並非新模型，而是針對現有MiMo-V2.5-Pro（採用混合專家MoE架構）的高速服務模式。其速度提升源於三個層次的協同最佳化：FP4量化、DFlash投機解碼和TileRT執行時。小米將這種方法稱為“極致模型-系統協同設計”。

第一層是FP4量化。萬億引數規模下，FP8或FP16權重會帶來巨大的記憶體和頻寬壓力。小米採用MXFP4格式，僅對MoE專家層進行低位寬量化，其他模組保持FP8精度。透過量化感知訓練（QAT），模型能力基本保持不變。

第二層是DFlash投機解碼。傳統投機解碼使用小型草稿模型逐個生成token，然後由大模型並行驗證。DFlash則透過塊級掩碼並行預測，讓草稿模型一次前向傳播填充整個掩碼塊。小米使用Muon二階最佳化器和模型自蒸餾調整DFlash，草稿模型僅採用滑動視窗注意力（SWA），塊大小上限為8。驗證採用拒絕取樣，確保輸出無損。不同場景的平均接受長度：程式設計6.30，數學/推理5.56，智慧體4.29。

第三層是TileRT執行時。在1000 TPS速度下，每個運算元僅執行微秒級別。傳統系統逐個啟動運算元，啟動開銷成為瓶頸。TileRT採用持久化引擎核心（Persistent Engine Kernel），常駐GPU，並透過Warp Specialization將資料移動、計算和通訊分工協調。RMSNorm、RoPE和KV快取寫入等小操作在此規模下成為瓶頸，系統在設計時與FP4和DFlash選擇協同最佳化。

UltraSpeed適用於延遲敏感場景：並行推理（如Best-of-N或樹搜尋）、程式設計智慧體、即時決策迴圈（交易訊號、欺詐攔截、即時對話）以及互動式原型開發（演示中Snake遊戲約10秒生成，macOS介面約1分鐘）。

與定製晶片方案對比：Cerebras採用晶圓級整合，Groq採用純片上SRAM，而MiMo×TileRT透過模型-系統協同在商用GPU上實現類似速度。

定價方面，UltraSpeed為標準模型價格的3倍，速度提升約10倍。API試用期為2026年6月9日至23日，需申請。模型權重MiMo-V2.5-Pro-FP4-DFlash已在Hugging Face開源，TileRT部分模組在GitHub開源。

優勢包括：無需定製晶片實現1000+ TPS；透過拒絕取樣實現無損解碼；FP4僅應用於高容忍度部分，保持質量；開放模型權重供社群驗證。侷限包括：訪問受限且需審批；定價為標準的3倍；開放對話場景下接受長度下降；第三方速度驗證尚未公開。