AI News HubLIVE
站内改写2 分钟阅读

美团发布LongCat-2.0:1.6万亿参数开源MoE模型,原生支持百万上下文和LongCat稀疏注意力

美团发布了LongCat-2.0,这是一个1.6万亿参数的混合专家模型,每个token激活约480亿参数。它原生支持100万token上下文窗口,基于LongCat稀疏注意力,训练和推理完全运行在国内AI ASIC超级集群上。本文介绍其架构、基准测试、API访问路径及尚未验证的部分。

来源MarkTechPost作者: Asif Razzaq

美团正式发布了LongCat-2.0,这是一个大规模混合专家(MoE)语言模型,总参数量达到1.6万亿,每个token激活约480亿参数(动态范围330亿至560亿)。模型专注于代理式编码任务,包括代码理解、生成和在代理工作流中的执行。

LongCat-2.0最突出的特点有两个:一是支持原生100万token的上下文窗口,二是训练和推理全程运行在国产AI ASIC超级集群上,未使用任何英伟达硬件。模型基于LongCat-Flash(2025年发布的560B模型)演进而来,预训练使用了超过35万亿token,耗时数百万加速器小时。美团声称训练过程没有出现回滚或不可恢复的损失尖峰,这在非英伟达硬件上尤为难得。

架构方面,LongCat-2.0采用多项创新以降低成本。零计算专家:简单token(如标点)路由到零计算专家直接返回,复杂token则调用更多专家,通过PID控制器动态调整专家偏置,实现33B–56B的激活范围。MoE主干采用捷径连接设计(ScMoE)以提高吞吐量。LongCat稀疏注意力(LSA)是DeepSeek稀疏注意力的演进版本,通过流式感知索引、跨层索引和层次索引三种方法,将注意力复杂度从二次降至近似线性,从而支撑百万级上下文。此外,模型还包含1350亿参数的N-gram嵌入模块,用于捕获密集的局部token关系并减少内存I/O。后训练采用MOPD流水线,融合了Agent、推理和交互三个教师专家组的能力。

在推理服务上,美团使用了6D并行方案和预填充-解码分离架构,并采用超级内核和L2缓存权重复用来隐藏I/O延迟。

根据美团自行报告的基准测试,LongCat-2.0在SWE-bench Pro上达到59.5,略高于GPT-5.5的58.6;Terminal-Bench 2.1为70.8;SWE-bench Multilingual为77.3。总体性能据称与Google Gemini 3.1 Pro相当,优势集中在软件工程领域。在更广泛的通用代理基准(如FORTE和BrowseComp)上,报道称其落后于领先的边界系统。独立排行榜验证尚未可用。

与上一代LongCat-Flash相比,LongCat-2.0在参数量(1.6T vs 560B)、上下文窗口(1M vs 128K)和硬件国产化方面均有大幅提升。模型采用MIT许可协议,权重即将开放。

LongCat-2.0适用于代理式软件工作,例如全仓库推理、多步终端任务、跨模块重构和多语言迁移。开发者可通过LongCat API平台(兼容OpenAI和Anthropic格式)、OpenRouter等渠道访问。定价为每百万输入token 0.75美元,每百万输出token 2.95美元,启动促销价分别为0.30美元和1.20美元,缓存上下文读取免费。本地自托管尚未支持,因为权重尚未发布。