2026-06-08站内改写2 分鐘閱讀更新: 2026-06-08

小米MiMo與TileRT實現萬億參數模型每秒超1000 token生成，運行於商用GPU

小米MiMo團隊聯合TileRT推出MiMo-V2.5-Pro-UltraSpeed，在單台8×商用GPU節點上，實現萬億參數模型每秒超1000 token的解碼速度。該技術結合FP4量化、DFlash投機解碼和TileRT運行時三大創新，無需定製芯片即可達此性能。API試用期為2026年6月9日至23日，定價為標準模型的3倍。

來源MarkTechPost作者: Asif Razzaq

小米MiMo團隊與TileRT系統組合作發佈了MiMo-V2.5-Pro-UltraSpeed，這是MiMo-V2.5-Pro模型的高速推理模式。該模式在單台配備8塊商用GPU的標準節點上，實現了萬億參數模型每秒超過1000個token的解碼速度，演示中峯值可達每秒1200 token。團隊稱這是萬億參數規模下的首次突破。

UltraSpeed並非新模型，而是針對現有MiMo-V2.5-Pro（採用混合專家MoE架構）的高速服務模式。其速度提升源於三個層次的協同優化：FP4量化、DFlash投機解碼和TileRT運行時。小米將這種方法稱為“極致模型-系統協同設計”。

第一層是FP4量化。萬億參數規模下，FP8或FP16權重會帶來巨大的內存和帶寬壓力。小米採用MXFP4格式，僅對MoE專家層進行低位寬量化，其他模塊保持FP8精度。通過量化感知訓練（QAT），模型能力基本保持不變。

第二層是DFlash投機解碼。傳統投機解碼使用小型草稿模型逐個生成token，然後由大模型並行驗證。DFlash則通過塊級掩碼並行預測，讓草稿模型一次前向傳播填充整個掩碼塊。小米使用Muon二階優化器和模型自蒸餾調整DFlash，草稿模型僅採用滑動窗口注意力（SWA），塊大小上限為8。驗證採用拒絕採樣，確保輸出無損。不同場景的平均接受長度：編程6.30，數學/推理5.56，智能體4.29。

第三層是TileRT運行時。在1000 TPS速度下，每個算子僅運行微秒級別。傳統系統逐個啓動算子，啓動開銷成為瓶頸。TileRT採用持久化引擎內核（Persistent Engine Kernel），常駐GPU，並通過Warp Specialization將數據移動、計算和通信分工協調。RMSNorm、RoPE和KV緩存寫入等小操作在此規模下成為瓶頸，系統在設計時與FP4和DFlash選擇協同優化。

UltraSpeed適用於延遲敏感場景：並行推理（如Best-of-N或樹搜索）、編程智能體、實時決策循環（交易信號、欺詐攔截、實時對話）以及交互式原型開發（演示中Snake遊戲約10秒生成，macOS界面約1分鐘）。

與定製芯片方案對比：Cerebras採用晶圓級集成，Groq採用純片上SRAM，而MiMo×TileRT通過模型-系統協同在商用GPU上實現類似速度。

定價方面，UltraSpeed為標準模型價格的3倍，速度提升約10倍。API試用期為2026年6月9日至23日，需申請。模型權重MiMo-V2.5-Pro-FP4-DFlash已在Hugging Face開源，TileRT部分模塊在GitHub開源。

優勢包括：無需定製芯片實現1000+ TPS；通過拒絕採樣實現無損解碼；FP4僅應用於高容忍度部分，保持質量；開放模型權重供社區驗證。侷限包括：訪問受限且需審批；定價為標準的3倍；開放對話場景下接受長度下降；第三方速度驗證尚未公開。