美团在没有英伟达GPU的情况下训练了1.6万亿参数AI模型
美团发布了LongCat-2.0,一个1.6万亿参数的混合专家模型,完全基于国产AI ASIC超级计算机集群训练和部署,没有使用英伟达GPU。该模型在OpenRouter上以Owl Alpha的匿名名称出现,获得高使用量。虽然并非性能最强的模型,但此举证明了国产计算生态的成熟度,为中国AI产业摆脱对英伟达依赖提供了可行路径。
美团近日发布了LongCat-2.0,一个拥有1.6万亿参数的基础模型。但真正引人注目的并非参数规模,而是其训练和部署方式:完全基于国产AI ASIC超级计算机集群,没有使用任何英伟达GPU。这一消息为中国AI产业提供了新的视角,尤其是在美国出口管制背景下。
LongCat-2.0采用混合专家架构,总参数1.6万亿,每个token激活约480亿参数。在正式发布前,该模型以Owl Alpha的匿名名称出现在OpenRouter平台上,迅速升至总使用量第三,在Claude Code Agent场景中排名第二,仅次于Claude Opus 4.8。不过,从技术性能来看,LongCat-2.0并非全球最强模型,其智能体能力接近Claude Opus 4.6,但不及4.8;编码能力略高于GLM-5.1,但低于GLM-5.2。
关键点在于,LongCat-2.0是一个“零英伟达”的万亿参数模型。从随机初始化开始,到预训练超过35万亿token,再到大规模部署,全部运行在国产AI ASIC超级计算机集群上。报道称,训练过程没有出现回滚或不可恢复的损失尖峰。这与以往国产计算叙事不同——以往多是利用国产芯片进行推理或后训练,而LongCat-2.0则实现了完整的训练和部署流水线。
硬件细节方面,美团官方并未透露具体芯片型号和数量。广泛流传的“5万张昇腾910C”源自中国媒体和社区推断,基于200Gbps RDMA和每芯片64GB HBM等线索。实际规模可能在5万至6万张之间。即便如此,这仍然是一个重大突破:从零训练万亿参数模型对系统稳定性要求极高,而在非英伟达堆栈下完成,意味着整个技术栈——芯片、互连、算子、通信库、故障恢复和训练稳定性——都达到了工业级水平。
文章强调,真正的瓶颈在于软件生态。国产芯片通常单卡内存较小,需要更多芯片,且通信带宽可能较弱。从CUDA生态迁移到国产平台需要重建大量基础设施。美团的工程指标包括:训练MFU提升1.5倍,日均故障率降低70%以上,MFU超过30%,关键算子效率提升14%。这些数字背后是算子适配、通信优化、HCCL异常处理和自动故障恢复等扎实工作。
架构方面,LongCat-2.0继承了LongCat-Flash的“零计算专家”和“短路连接MoE”技术。零计算专家顾名思义,即部分专家不进行计算,直接返回输入,由路由器动态决定每个token使用多少真实专家和零计算专家。这使得激活参数从固定值变为一个范围:LongCat-2.0中约为330亿至560亿,平均480亿。这种设计让模型对更难的token投入更多计算,对简单的则较少。
值得注意的是,美团官方博客提到,排除N-gram嵌入后,LongCat-2.0的MoE稀疏度已达到约97%,而增加1350亿专家参数带来性能提升微乎其微。这可能意味着顶级MoE模型正在接近稀疏度上限。DeepSeek-V3和V4-Pro的稀疏度也分别在94%和97%左右。如果增加专家不再带来显著提升,未来的改进可能需要转向注意力机制、上下文效率、后训练数据、路由质量以及推理优化。
最令人信服的“基准测试”可能并非公共排行榜。LongCat-2.0以Owl Alpha匿名测试时,开发者需要为实际使用付费,这反映了真实需求。在仓库级代码理解和端到端任务执行方面,它似乎解决了开发者的痛点。
总体而言,LongCat-2.0并未单独改变AI发展方向。但结合DeepSeek-V4、GLM-5.2和Kimi K2.7等模型,它推动了万亿参数开源模型、国产计算、低成本智能体能力和大规模开发者使用等组合实用化。对中国而言,其战略价值在于减少对单一外国供应商的依赖,为绕过出口管制提供路径,证明前沿规模训练不一定需要英伟达。
如果一家外卖巨头都能在没有英伟达GPU的情况下训练1.6万亿参数模型并获得实际应用,那么中国AI生态的广度可能超出多数外部观察者的预期。下一个问题不再是LongCat-2.0是否比Claude或GPT更好,而是这条“无英伟达”训练路径能否实现可重复性。