2026-07-06 05:25 UTC+8站內改寫2 分鐘閱讀更新: 2026-07-06 05:45 UTC+8

美團發佈LongCat-2.0：1.6萬億參數開源MoE模型，原生支持百萬上下文和LongCat稀疏注意力

美團發佈了LongCat-2.0，這是一個1.6萬億參數的混合專家模型，每個token激活約480億參數。它原生支持100萬token上下文窗口，基於LongCat稀疏注意力，訓練和推理完全運行在國內AI ASIC超級集羣上。本文介紹其架構、基準測試、API訪問路徑及尚未驗證的部分。

來源MarkTechPost作者: Asif Razzaq

美團正式發佈了LongCat-2.0，這是一個大規模混合專家（MoE）語言模型，總參數量達到1.6萬億，每個token激活約480億參數（動態範圍330億至560億）。模型專注於代理式編碼任務，包括代碼理解、生成和在代理工作流中的執行。

LongCat-2.0最突出的特點有兩個：一是支持原生100萬token的上下文窗口，二是訓練和推理全程運行在國產AI ASIC超級集羣上，未使用任何英偉達硬件。模型基於LongCat-Flash（2025年發佈的560B模型）演進而來，預訓練使用了超過35萬億token，耗時數百萬加速器小時。美團聲稱訓練過程沒有出現回滾或不可恢復的損失尖峯，這在非英偉達硬件上尤為難得。

架構方面，LongCat-2.0採用多項創新以降低成本。零計算專家：簡單token（如標點）路由到零計算專家直接返回，複雜token則調用更多專家，通過PID控制器動態調整專家偏置，實現33B–56B的激活範圍。MoE主幹採用捷徑連接設計（ScMoE）以提高吞吐量。LongCat稀疏注意力（LSA）是DeepSeek稀疏注意力的演進版本，通過流式感知索引、跨層索引和層次索引三種方法，將注意力複雜度從二次降至近似線性，從而支撐百萬級上下文。此外，模型還包含1350億參數的N-gram嵌入模塊，用於捕獲密集的局部token關係並減少內存I/O。後訓練採用MOPD流水線，融合了Agent、推理和交互三個教師專家組的能力。

在推理服務上，美團使用了6D並行方案和預填充-解碼分離架構，並採用超級內核和L2緩存權重複用來隱藏I/O延遲。

根據美團自行報告的基準測試，LongCat-2.0在SWE-bench Pro上達到59.5，略高於GPT-5.5的58.6；Terminal-Bench 2.1為70.8；SWE-bench Multilingual為77.3。總體性能據稱與Google Gemini 3.1 Pro相當，優勢集中在軟件工程領域。在更廣泛的通用代理基準（如FORTE和BrowseComp）上，報道稱其落後於領先的邊界系統。獨立排行榜驗證尚未可用。

與上一代LongCat-Flash相比，LongCat-2.0在參數量（1.6T vs 560B）、上下文窗口（1M vs 128K）和硬件國產化方面均有大幅提升。模型採用MIT許可協議，權重即將開放。

LongCat-2.0適用於代理式軟件工作，例如全倉庫推理、多步終端任務、跨模塊重構和多語言遷移。開發者可通過LongCat API平台（兼容OpenAI和Anthropic格式）、OpenRouter等渠道訪問。定價為每百萬輸入token 0.75美元，每百萬輸出token 2.95美元，啓動促銷價分別為0.30美元和1.20美元，緩存上下文讀取免費。本地自託管尚未支持，因為權重尚未發佈。