2026-07-06 05:25 UTC+8站內改寫2 分鐘閱讀更新: 2026-07-06 05:45 UTC+8

美團釋出LongCat-2.0：1.6萬億引數開源MoE模型，原生支援百萬上下文和LongCat稀疏注意力

美團釋出了LongCat-2.0，這是一個1.6萬億引數的混合專家模型，每個token啟用約480億引數。它原生支援100萬token上下文視窗，基於LongCat稀疏注意力，訓練和推理完全執行在國內AI ASIC超級叢集上。本文介紹其架構、基準測試、API訪問路徑及尚未驗證的部分。

來源MarkTechPost作者: Asif Razzaq

美團正式釋出了LongCat-2.0，這是一個大規模混合專家（MoE）語言模型，總引數量達到1.6萬億，每個token啟用約480億引數（動態範圍330億至560億）。模型專注於代理式編碼任務，包括程式碼理解、生成和在代理工作流中的執行。

LongCat-2.0最突出的特點有兩個：一是支援原生100萬token的上下文視窗，二是訓練和推理全程執行在國產AI ASIC超級叢集上，未使用任何輝達硬體。模型基於LongCat-Flash（2025年釋出的560B模型）演進而來，預訓練使用了超過35萬億token，耗時數百萬加速器小時。美團聲稱訓練過程沒有出現回滾或不可恢復的損失尖峰，這在非輝達硬體上尤為難得。

架構方面，LongCat-2.0採用多項創新以降低成本。零計算專家：簡單token（如標點）路由到零計算專家直接返回，複雜token則呼叫更多專家，透過PID控制器動態調整專家偏置，實現33B–56B的啟用範圍。MoE主幹採用捷徑連線設計（ScMoE）以提高吞吐量。LongCat稀疏注意力（LSA）是DeepSeek稀疏注意力的演進版本，透過流式感知索引、跨層索引和層次索引三種方法，將注意力複雜度從二次降至近似線性，從而支撐百萬級上下文。此外，模型還包含1350億引數的N-gram嵌入模組，用於捕獲密集的區域性token關係並減少記憶體I/O。後訓練採用MOPD流水線，融合了Agent、推理和互動三個教師專家組的能力。

在推理服務上，美團使用了6D並行方案和預填充-解碼分離架構，並採用超級核心和L2快取權重複用來隱藏I/O延遲。

根據美團自行報告的基準測試，LongCat-2.0在SWE-bench Pro上達到59.5，略高於GPT-5.5的58.6；Terminal-Bench 2.1為70.8；SWE-bench Multilingual為77.3。總體效能據稱與Google Gemini 3.1 Pro相當，優勢集中在軟體工程領域。在更廣泛的通用代理基準（如FORTE和BrowseComp）上，報道稱其落後於領先的邊界系統。獨立排行榜驗證尚未可用。

與上一代LongCat-Flash相比，LongCat-2.0在引數量（1.6T vs 560B）、上下文視窗（1M vs 128K）和硬體國產化方面均有大幅提升。模型採用MIT許可協議，權重即將開放。

LongCat-2.0適用於代理式軟體工作，例如全倉庫推理、多步終端任務、跨模組重構和多語言遷移。開發者可透過LongCat API平臺（相容OpenAI和Anthropic格式）、OpenRouter等渠道訪問。定價為每百萬輸入token 0.75美元，每百萬輸出token 2.95美元，啟動促銷價分別為0.30美元和1.20美元，快取上下文讀取免費。本地自託管尚未支援，因為權重尚未釋出。