2026-07-05 12:59 UTC+8站内改写2 分钟阅读更新: 2026-07-05 13:42 UTC+8

美团在没有英伟达GPU的情况下训练了1.6万亿参数AI模型

美团发布了LongCat-2.0，一个1.6万亿参数的混合专家模型，完全基于国产AI ASIC超级计算机集群训练和部署，没有使用英伟达GPU。该模型在OpenRouter上以Owl Alpha的匿名名称出现，获得高使用量。虽然并非性能最强的模型，但此举证明了国产计算生态的成熟度，为中国AI产业摆脱对英伟达依赖提供了可行路径。

来源Hacker News AI作者: mgh2

美团近日发布了LongCat-2.0，一个拥有1.6万亿参数的基础模型。但真正引人注目的并非参数规模，而是其训练和部署方式：完全基于国产AI ASIC超级计算机集群，没有使用任何英伟达GPU。这一消息为中国AI产业提供了新的视角，尤其是在美国出口管制背景下。

LongCat-2.0采用混合专家架构，总参数1.6万亿，每个token激活约480亿参数。在正式发布前，该模型以Owl Alpha的匿名名称出现在OpenRouter平台上，迅速升至总使用量第三，在Claude Code Agent场景中排名第二，仅次于Claude Opus 4.8。不过，从技术性能来看，LongCat-2.0并非全球最强模型，其智能体能力接近Claude Opus 4.6，但不及4.8；编码能力略高于GLM-5.1，但低于GLM-5.2。

关键点在于，LongCat-2.0是一个“零英伟达”的万亿参数模型。从随机初始化开始，到预训练超过35万亿token，再到大规模部署，全部运行在国产AI ASIC超级计算机集群上。报道称，训练过程没有出现回滚或不可恢复的损失尖峰。这与以往国产计算叙事不同——以往多是利用国产芯片进行推理或后训练，而LongCat-2.0则实现了完整的训练和部署流水线。

硬件细节方面，美团官方并未透露具体芯片型号和数量。广泛流传的“5万张昇腾910C”源自中国媒体和社区推断，基于200Gbps RDMA和每芯片64GB HBM等线索。实际规模可能在5万至6万张之间。即便如此，这仍然是一个重大突破：从零训练万亿参数模型对系统稳定性要求极高，而在非英伟达堆栈下完成，意味着整个技术栈——芯片、互连、算子、通信库、故障恢复和训练稳定性——都达到了工业级水平。

文章强调，真正的瓶颈在于软件生态。国产芯片通常单卡内存较小，需要更多芯片，且通信带宽可能较弱。从CUDA生态迁移到国产平台需要重建大量基础设施。美团的工程指标包括：训练MFU提升1.5倍，日均故障率降低70%以上，MFU超过30%，关键算子效率提升14%。这些数字背后是算子适配、通信优化、HCCL异常处理和自动故障恢复等扎实工作。

架构方面，LongCat-2.0继承了LongCat-Flash的“零计算专家”和“短路连接MoE”技术。零计算专家顾名思义，即部分专家不进行计算，直接返回输入，由路由器动态决定每个token使用多少真实专家和零计算专家。这使得激活参数从固定值变为一个范围：LongCat-2.0中约为330亿至560亿，平均480亿。这种设计让模型对更难的token投入更多计算，对简单的则较少。

值得注意的是，美团官方博客提到，排除N-gram嵌入后，LongCat-2.0的MoE稀疏度已达到约97%，而增加1350亿专家参数带来性能提升微乎其微。这可能意味着顶级MoE模型正在接近稀疏度上限。DeepSeek-V3和V4-Pro的稀疏度也分别在94%和97%左右。如果增加专家不再带来显著提升，未来的改进可能需要转向注意力机制、上下文效率、后训练数据、路由质量以及推理优化。

最令人信服的“基准测试”可能并非公共排行榜。LongCat-2.0以Owl Alpha匿名测试时，开发者需要为实际使用付费，这反映了真实需求。在仓库级代码理解和端到端任务执行方面，它似乎解决了开发者的痛点。

总体而言，LongCat-2.0并未单独改变AI发展方向。但结合DeepSeek-V4、GLM-5.2和Kimi K2.7等模型，它推动了万亿参数开源模型、国产计算、低成本智能体能力和大规模开发者使用等组合实用化。对中国而言，其战略价值在于减少对单一外国供应商的依赖，为绕过出口管制提供路径，证明前沿规模训练不一定需要英伟达。

如果一家外卖巨头都能在没有英伟达GPU的情况下训练1.6万亿参数模型并获得实际应用，那么中国AI生态的广度可能超出多数外部观察者的预期。下一个问题不再是LongCat-2.0是否比Claude或GPT更好，而是这条“无英伟达”训练路径能否实现可重复性。