小米MiMo与TileRT实现万亿参数模型每秒超1000 token生成,运行于商用GPU
小米MiMo团队联合TileRT推出MiMo-V2.5-Pro-UltraSpeed,在单台8×商用GPU节点上,实现万亿参数模型每秒超1000 token的解码速度。该技术结合FP4量化、DFlash投机解码和TileRT运行时三大创新,无需定制芯片即可达此性能。API试用期为2026年6月9日至23日,定价为标准模型的3倍。
小米MiMo团队与TileRT系统组合作发布了MiMo-V2.5-Pro-UltraSpeed,这是MiMo-V2.5-Pro模型的高速推理模式。该模式在单台配备8块商用GPU的标准节点上,实现了万亿参数模型每秒超过1000个token的解码速度,演示中峰值可达每秒1200 token。团队称这是万亿参数规模下的首次突破。
UltraSpeed并非新模型,而是针对现有MiMo-V2.5-Pro(采用混合专家MoE架构)的高速服务模式。其速度提升源于三个层次的协同优化:FP4量化、DFlash投机解码和TileRT运行时。小米将这种方法称为“极致模型-系统协同设计”。
第一层是FP4量化。万亿参数规模下,FP8或FP16权重会带来巨大的内存和带宽压力。小米采用MXFP4格式,仅对MoE专家层进行低位宽量化,其他模块保持FP8精度。通过量化感知训练(QAT),模型能力基本保持不变。
第二层是DFlash投机解码。传统投机解码使用小型草稿模型逐个生成token,然后由大模型并行验证。DFlash则通过块级掩码并行预测,让草稿模型一次前向传播填充整个掩码块。小米使用Muon二阶优化器和模型自蒸馏调整DFlash,草稿模型仅采用滑动窗口注意力(SWA),块大小上限为8。验证采用拒绝采样,确保输出无损。不同场景的平均接受长度:编程6.30,数学/推理5.56,智能体4.29。
第三层是TileRT运行时。在1000 TPS速度下,每个算子仅运行微秒级别。传统系统逐个启动算子,启动开销成为瓶颈。TileRT采用持久化引擎内核(Persistent Engine Kernel),常驻GPU,并通过Warp Specialization将数据移动、计算和通信分工协调。RMSNorm、RoPE和KV缓存写入等小操作在此规模下成为瓶颈,系统在设计时与FP4和DFlash选择协同优化。
UltraSpeed适用于延迟敏感场景:并行推理(如Best-of-N或树搜索)、编程智能体、实时决策循环(交易信号、欺诈拦截、实时对话)以及交互式原型开发(演示中Snake游戏约10秒生成,macOS界面约1分钟)。
与定制芯片方案对比:Cerebras采用晶圆级集成,Groq采用纯片上SRAM,而MiMo×TileRT通过模型-系统协同在商用GPU上实现类似速度。
定价方面,UltraSpeed为标准模型价格的3倍,速度提升约10倍。API试用期为2026年6月9日至23日,需申请。模型权重MiMo-V2.5-Pro-FP4-DFlash已在Hugging Face开源,TileRT部分模块在GitHub开源。
优势包括:无需定制芯片实现1000+ TPS;通过拒绝采样实现无损解码;FP4仅应用于高容忍度部分,保持质量;开放模型权重供社区验证。局限包括:访问受限且需审批;定价为标准的3倍;开放对话场景下接受长度下降;第三方速度验证尚未公开。