2026-07-06 05:25 UTC+8站内改写2 分钟阅读更新: 2026-07-06 05:45 UTC+8

美团发布LongCat-2.0：1.6万亿参数开源MoE模型，原生支持百万上下文和LongCat稀疏注意力

美团发布了LongCat-2.0，这是一个1.6万亿参数的混合专家模型，每个token激活约480亿参数。它原生支持100万token上下文窗口，基于LongCat稀疏注意力，训练和推理完全运行在国内AI ASIC超级集群上。本文介绍其架构、基准测试、API访问路径及尚未验证的部分。

来源MarkTechPost作者: Asif Razzaq

美团正式发布了LongCat-2.0，这是一个大规模混合专家（MoE）语言模型，总参数量达到1.6万亿，每个token激活约480亿参数（动态范围330亿至560亿）。模型专注于代理式编码任务，包括代码理解、生成和在代理工作流中的执行。

LongCat-2.0最突出的特点有两个：一是支持原生100万token的上下文窗口，二是训练和推理全程运行在国产AI ASIC超级集群上，未使用任何英伟达硬件。模型基于LongCat-Flash（2025年发布的560B模型）演进而来，预训练使用了超过35万亿token，耗时数百万加速器小时。美团声称训练过程没有出现回滚或不可恢复的损失尖峰，这在非英伟达硬件上尤为难得。

架构方面，LongCat-2.0采用多项创新以降低成本。零计算专家：简单token（如标点）路由到零计算专家直接返回，复杂token则调用更多专家，通过PID控制器动态调整专家偏置，实现33B–56B的激活范围。MoE主干采用捷径连接设计（ScMoE）以提高吞吐量。LongCat稀疏注意力（LSA）是DeepSeek稀疏注意力的演进版本，通过流式感知索引、跨层索引和层次索引三种方法，将注意力复杂度从二次降至近似线性，从而支撑百万级上下文。此外，模型还包含1350亿参数的N-gram嵌入模块，用于捕获密集的局部token关系并减少内存I/O。后训练采用MOPD流水线，融合了Agent、推理和交互三个教师专家组的能力。

在推理服务上，美团使用了6D并行方案和预填充-解码分离架构，并采用超级内核和L2缓存权重复用来隐藏I/O延迟。

根据美团自行报告的基准测试，LongCat-2.0在SWE-bench Pro上达到59.5，略高于GPT-5.5的58.6；Terminal-Bench 2.1为70.8；SWE-bench Multilingual为77.3。总体性能据称与Google Gemini 3.1 Pro相当，优势集中在软件工程领域。在更广泛的通用代理基准（如FORTE和BrowseComp）上，报道称其落后于领先的边界系统。独立排行榜验证尚未可用。

与上一代LongCat-Flash相比，LongCat-2.0在参数量（1.6T vs 560B）、上下文窗口（1M vs 128K）和硬件国产化方面均有大幅提升。模型采用MIT许可协议，权重即将开放。

LongCat-2.0适用于代理式软件工作，例如全仓库推理、多步终端任务、跨模块重构和多语言迁移。开发者可通过LongCat API平台（兼容OpenAI和Anthropic格式）、OpenRouter等渠道访问。定价为每百万输入token 0.75美元，每百万输出token 2.95美元，启动促销价分别为0.30美元和1.20美元，缓存上下文读取免费。本地自托管尚未支持，因为权重尚未发布。