2026-06-08站内改写2 分钟阅读更新: 2026-06-08

小米MiMo与TileRT实现万亿参数模型每秒超1000 token生成，运行于商用GPU

小米MiMo团队联合TileRT推出MiMo-V2.5-Pro-UltraSpeed，在单台8×商用GPU节点上，实现万亿参数模型每秒超1000 token的解码速度。该技术结合FP4量化、DFlash投机解码和TileRT运行时三大创新，无需定制芯片即可达此性能。API试用期为2026年6月9日至23日，定价为标准模型的3倍。

来源MarkTechPost作者: Asif Razzaq

小米MiMo团队与TileRT系统组合作发布了MiMo-V2.5-Pro-UltraSpeed，这是MiMo-V2.5-Pro模型的高速推理模式。该模式在单台配备8块商用GPU的标准节点上，实现了万亿参数模型每秒超过1000个token的解码速度，演示中峰值可达每秒1200 token。团队称这是万亿参数规模下的首次突破。

UltraSpeed并非新模型，而是针对现有MiMo-V2.5-Pro（采用混合专家MoE架构）的高速服务模式。其速度提升源于三个层次的协同优化：FP4量化、DFlash投机解码和TileRT运行时。小米将这种方法称为“极致模型-系统协同设计”。

第一层是FP4量化。万亿参数规模下，FP8或FP16权重会带来巨大的内存和带宽压力。小米采用MXFP4格式，仅对MoE专家层进行低位宽量化，其他模块保持FP8精度。通过量化感知训练（QAT），模型能力基本保持不变。

第二层是DFlash投机解码。传统投机解码使用小型草稿模型逐个生成token，然后由大模型并行验证。DFlash则通过块级掩码并行预测，让草稿模型一次前向传播填充整个掩码块。小米使用Muon二阶优化器和模型自蒸馏调整DFlash，草稿模型仅采用滑动窗口注意力（SWA），块大小上限为8。验证采用拒绝采样，确保输出无损。不同场景的平均接受长度：编程6.30，数学/推理5.56，智能体4.29。

第三层是TileRT运行时。在1000 TPS速度下，每个算子仅运行微秒级别。传统系统逐个启动算子，启动开销成为瓶颈。TileRT采用持久化引擎内核（Persistent Engine Kernel），常驻GPU，并通过Warp Specialization将数据移动、计算和通信分工协调。RMSNorm、RoPE和KV缓存写入等小操作在此规模下成为瓶颈，系统在设计时与FP4和DFlash选择协同优化。

UltraSpeed适用于延迟敏感场景：并行推理（如Best-of-N或树搜索）、编程智能体、实时决策循环（交易信号、欺诈拦截、实时对话）以及交互式原型开发（演示中Snake游戏约10秒生成，macOS界面约1分钟）。

与定制芯片方案对比：Cerebras采用晶圆级集成，Groq采用纯片上SRAM，而MiMo×TileRT通过模型-系统协同在商用GPU上实现类似速度。

定价方面，UltraSpeed为标准模型价格的3倍，速度提升约10倍。API试用期为2026年6月9日至23日，需申请。模型权重MiMo-V2.5-Pro-FP4-DFlash已在Hugging Face开源，TileRT部分模块在GitHub开源。

优势包括：无需定制芯片实现1000+ TPS；通过拒绝采样实现无损解码；FP4仅应用于高容忍度部分，保持质量；开放模型权重供社区验证。局限包括：访问受限且需审批；定价为标准的3倍；开放对话场景下接受长度下降；第三方速度验证尚未公开。