美團在沒有英偉達GPU的情況下訓練了1.6萬億參數AI模型
美團發佈了LongCat-2.0,一個1.6萬億參數的混合專家模型,完全基於國產AI ASIC超級計算機集羣訓練和部署,沒有使用英偉達GPU。該模型在OpenRouter上以Owl Alpha的匿名名稱出現,獲得高使用量。雖然並非性能最強的模型,但此舉證明了國產計算生態的成熟度,為中國AI產業擺脱對英偉達依賴提供了可行路徑。
美團近日發佈了LongCat-2.0,一個擁有1.6萬億參數的基礎模型。但真正引人注目的並非參數規模,而是其訓練和部署方式:完全基於國產AI ASIC超級計算機集羣,沒有使用任何英偉達GPU。這一消息為中國AI產業提供了新的視角,尤其是在美國出口管制背景下。
LongCat-2.0採用混合專家架構,總參數1.6萬億,每個token激活約480億參數。在正式發佈前,該模型以Owl Alpha的匿名名稱出現在OpenRouter平台上,迅速升至總使用量第三,在Claude Code Agent場景中排名第二,僅次於Claude Opus 4.8。不過,從技術性能來看,LongCat-2.0並非全球最強模型,其智能體能力接近Claude Opus 4.6,但不及4.8;編碼能力略高於GLM-5.1,但低於GLM-5.2。
關鍵點在於,LongCat-2.0是一個“零英偉達”的萬億參數模型。從隨機初始化開始,到預訓練超過35萬億token,再到大規模部署,全部運行在國產AI ASIC超級計算機集羣上。報道稱,訓練過程沒有出現回滾或不可恢復的損失尖峯。這與以往國產計算敍事不同——以往多是利用國產芯片進行推理或後訓練,而LongCat-2.0則實現了完整的訓練和部署流水線。
硬件細節方面,美團官方並未透露具體芯片型號和數量。廣泛流傳的“5萬張昇騰910C”源自中國媒體和社區推斷,基於200Gbps RDMA和每芯片64GB HBM等線索。實際規模可能在5萬至6萬張之間。即便如此,這仍然是一個重大突破:從零訓練萬億參數模型對系統穩定性要求極高,而在非英偉達堆棧下完成,意味着整個技術棧——芯片、互連、算子、通信庫、故障恢復和訓練穩定性——都達到了工業級水平。
文章強調,真正的瓶頸在於軟件生態。國產芯片通常單卡內存較小,需要更多芯片,且通信帶寬可能較弱。從CUDA生態遷移到國產平台需要重建大量基礎設施。美團的工程指標包括:訓練MFU提升1.5倍,日均故障率降低70%以上,MFU超過30%,關鍵算子效率提升14%。這些數字背後是算子適配、通信優化、HCCL異常處理和自動故障恢復等紮實工作。
架構方面,LongCat-2.0繼承了LongCat-Flash的“零計算專家”和“短路連接MoE”技術。零計算專家顧名思義,即部分專家不進行計算,直接返回輸入,由路由器動態決定每個token使用多少真實專家和零計算專家。這使得激活參數從固定值變為一個範圍:LongCat-2.0中約為330億至560億,平均480億。這種設計讓模型對更難的token投入更多計算,對簡單的則較少。
值得注意的是,美團官方博客提到,排除N-gram嵌入後,LongCat-2.0的MoE稀疏度已達到約97%,而增加1350億專家參數帶來性能提升微乎其微。這可能意味着頂級MoE模型正在接近稀疏度上限。DeepSeek-V3和V4-Pro的稀疏度也分別在94%和97%左右。如果增加專家不再帶來顯著提升,未來的改進可能需要轉向注意力機制、上下文效率、後訓練數據、路由質量以及推理優化。
最令人信服的“基準測試”可能並非公共排行榜。LongCat-2.0以Owl Alpha匿名測試時,開發者需要為實際使用付費,這反映了真實需求。在倉庫級代碼理解和端到端任務執行方面,它似乎解決了開發者的痛點。
總體而言,LongCat-2.0並未單獨改變AI發展方向。但結合DeepSeek-V4、GLM-5.2和Kimi K2.7等模型,它推動了萬億參數開源模型、國產計算、低成本智能體能力和大規模開發者使用等組合實用化。對中國而言,其戰略價值在於減少對單一外國供應商的依賴,為繞過出口管制提供路徑,證明前沿規模訓練不一定需要英偉達。
如果一家外賣巨頭都能在沒有英偉達GPU的情況下訓練1.6萬億參數模型並獲得實際應用,那麼中國AI生態的廣度可能超出多數外部觀察者的預期。下一個問題不再是LongCat-2.0是否比Claude或GPT更好,而是這條“無英偉達”訓練路徑能否實現可重複性。