AI News HubLIVE
站內改寫2 分鐘閱讀

美團發佈LongCat-2.0:1.6萬億參數開源MoE模型,原生支持百萬上下文和LongCat稀疏注意力

美團發佈了LongCat-2.0,這是一個1.6萬億參數的混合專家模型,每個token激活約480億參數。它原生支持100萬token上下文窗口,基於LongCat稀疏注意力,訓練和推理完全運行在國內AI ASIC超級集羣上。本文介紹其架構、基準測試、API訪問路徑及尚未驗證的部分。

來源MarkTechPost作者: Asif Razzaq

美團正式發佈了LongCat-2.0,這是一個大規模混合專家(MoE)語言模型,總參數量達到1.6萬億,每個token激活約480億參數(動態範圍330億至560億)。模型專注於代理式編碼任務,包括代碼理解、生成和在代理工作流中的執行。

LongCat-2.0最突出的特點有兩個:一是支持原生100萬token的上下文窗口,二是訓練和推理全程運行在國產AI ASIC超級集羣上,未使用任何英偉達硬件。模型基於LongCat-Flash(2025年發佈的560B模型)演進而來,預訓練使用了超過35萬億token,耗時數百萬加速器小時。美團聲稱訓練過程沒有出現回滾或不可恢復的損失尖峯,這在非英偉達硬件上尤為難得。

架構方面,LongCat-2.0採用多項創新以降低成本。零計算專家:簡單token(如標點)路由到零計算專家直接返回,複雜token則調用更多專家,通過PID控制器動態調整專家偏置,實現33B–56B的激活範圍。MoE主幹採用捷徑連接設計(ScMoE)以提高吞吐量。LongCat稀疏注意力(LSA)是DeepSeek稀疏注意力的演進版本,通過流式感知索引、跨層索引和層次索引三種方法,將注意力複雜度從二次降至近似線性,從而支撐百萬級上下文。此外,模型還包含1350億參數的N-gram嵌入模塊,用於捕獲密集的局部token關係並減少內存I/O。後訓練採用MOPD流水線,融合了Agent、推理和交互三個教師專家組的能力。

在推理服務上,美團使用了6D並行方案和預填充-解碼分離架構,並採用超級內核和L2緩存權重複用來隱藏I/O延遲。

根據美團自行報告的基準測試,LongCat-2.0在SWE-bench Pro上達到59.5,略高於GPT-5.5的58.6;Terminal-Bench 2.1為70.8;SWE-bench Multilingual為77.3。總體性能據稱與Google Gemini 3.1 Pro相當,優勢集中在軟件工程領域。在更廣泛的通用代理基準(如FORTE和BrowseComp)上,報道稱其落後於領先的邊界系統。獨立排行榜驗證尚未可用。

與上一代LongCat-Flash相比,LongCat-2.0在參數量(1.6T vs 560B)、上下文窗口(1M vs 128K)和硬件國產化方面均有大幅提升。模型採用MIT許可協議,權重即將開放。

LongCat-2.0適用於代理式軟件工作,例如全倉庫推理、多步終端任務、跨模塊重構和多語言遷移。開發者可通過LongCat API平台(兼容OpenAI和Anthropic格式)、OpenRouter等渠道訪問。定價為每百萬輸入token 0.75美元,每百萬輸出token 2.95美元,啓動促銷價分別為0.30美元和1.20美元,緩存上下文讀取免費。本地自託管尚未支持,因為權重尚未發佈。