AI News HubLIVE
站內改寫2 分鐘閱讀

美團釋出LongCat-2.0:1.6萬億引數開源MoE模型,原生支援百萬上下文和LongCat稀疏注意力

美團釋出了LongCat-2.0,這是一個1.6萬億引數的混合專家模型,每個token啟用約480億引數。它原生支援100萬token上下文視窗,基於LongCat稀疏注意力,訓練和推理完全執行在國內AI ASIC超級叢集上。本文介紹其架構、基準測試、API訪問路徑及尚未驗證的部分。

來源MarkTechPost作者: Asif Razzaq

美團正式釋出了LongCat-2.0,這是一個大規模混合專家(MoE)語言模型,總引數量達到1.6萬億,每個token啟用約480億引數(動態範圍330億至560億)。模型專注於代理式編碼任務,包括程式碼理解、生成和在代理工作流中的執行。

LongCat-2.0最突出的特點有兩個:一是支援原生100萬token的上下文視窗,二是訓練和推理全程執行在國產AI ASIC超級叢集上,未使用任何輝達硬體。模型基於LongCat-Flash(2025年釋出的560B模型)演進而來,預訓練使用了超過35萬億token,耗時數百萬加速器小時。美團聲稱訓練過程沒有出現回滾或不可恢復的損失尖峰,這在非輝達硬體上尤為難得。

架構方面,LongCat-2.0採用多項創新以降低成本。零計算專家:簡單token(如標點)路由到零計算專家直接返回,複雜token則呼叫更多專家,透過PID控制器動態調整專家偏置,實現33B–56B的啟用範圍。MoE主幹採用捷徑連線設計(ScMoE)以提高吞吐量。LongCat稀疏注意力(LSA)是DeepSeek稀疏注意力的演進版本,透過流式感知索引、跨層索引和層次索引三種方法,將注意力複雜度從二次降至近似線性,從而支撐百萬級上下文。此外,模型還包含1350億引數的N-gram嵌入模組,用於捕獲密集的區域性token關係並減少記憶體I/O。後訓練採用MOPD流水線,融合了Agent、推理和互動三個教師專家組的能力。

在推理服務上,美團使用了6D並行方案和預填充-解碼分離架構,並採用超級核心和L2快取權重複用來隱藏I/O延遲。

根據美團自行報告的基準測試,LongCat-2.0在SWE-bench Pro上達到59.5,略高於GPT-5.5的58.6;Terminal-Bench 2.1為70.8;SWE-bench Multilingual為77.3。總體效能據稱與Google Gemini 3.1 Pro相當,優勢集中在軟體工程領域。在更廣泛的通用代理基準(如FORTE和BrowseComp)上,報道稱其落後於領先的邊界系統。獨立排行榜驗證尚未可用。

與上一代LongCat-Flash相比,LongCat-2.0在引數量(1.6T vs 560B)、上下文視窗(1M vs 128K)和硬體國產化方面均有大幅提升。模型採用MIT許可協議,權重即將開放。

LongCat-2.0適用於代理式軟體工作,例如全倉庫推理、多步終端任務、跨模組重構和多語言遷移。開發者可透過LongCat API平臺(相容OpenAI和Anthropic格式)、OpenRouter等渠道訪問。定價為每百萬輸入token 0.75美元,每百萬輸出token 2.95美元,啟動促銷價分別為0.30美元和1.20美元,快取上下文讀取免費。本地自託管尚未支援,因為權重尚未釋出。