2026-07-05 12:59 UTC+8站內改寫2 分鐘閱讀更新: 2026-07-05 13:42 UTC+8

美團在沒有英偉達GPU的情況下訓練了1.6萬億參數AI模型

美團發佈了LongCat-2.0，一個1.6萬億參數的混合專家模型，完全基於國產AI ASIC超級計算機集羣訓練和部署，沒有使用英偉達GPU。該模型在OpenRouter上以Owl Alpha的匿名名稱出現，獲得高使用量。雖然並非性能最強的模型，但此舉證明了國產計算生態的成熟度，為中國AI產業擺脱對英偉達依賴提供了可行路徑。

來源Hacker News AI作者: mgh2

美團近日發佈了LongCat-2.0，一個擁有1.6萬億參數的基礎模型。但真正引人注目的並非參數規模，而是其訓練和部署方式：完全基於國產AI ASIC超級計算機集羣，沒有使用任何英偉達GPU。這一消息為中國AI產業提供了新的視角，尤其是在美國出口管制背景下。

LongCat-2.0採用混合專家架構，總參數1.6萬億，每個token激活約480億參數。在正式發佈前，該模型以Owl Alpha的匿名名稱出現在OpenRouter平台上，迅速升至總使用量第三，在Claude Code Agent場景中排名第二，僅次於Claude Opus 4.8。不過，從技術性能來看，LongCat-2.0並非全球最強模型，其智能體能力接近Claude Opus 4.6，但不及4.8；編碼能力略高於GLM-5.1，但低於GLM-5.2。

關鍵點在於，LongCat-2.0是一個“零英偉達”的萬億參數模型。從隨機初始化開始，到預訓練超過35萬億token，再到大規模部署，全部運行在國產AI ASIC超級計算機集羣上。報道稱，訓練過程沒有出現回滾或不可恢復的損失尖峯。這與以往國產計算敍事不同——以往多是利用國產芯片進行推理或後訓練，而LongCat-2.0則實現了完整的訓練和部署流水線。

硬件細節方面，美團官方並未透露具體芯片型號和數量。廣泛流傳的“5萬張昇騰910C”源自中國媒體和社區推斷，基於200Gbps RDMA和每芯片64GB HBM等線索。實際規模可能在5萬至6萬張之間。即便如此，這仍然是一個重大突破：從零訓練萬億參數模型對系統穩定性要求極高，而在非英偉達堆棧下完成，意味着整個技術棧——芯片、互連、算子、通信庫、故障恢復和訓練穩定性——都達到了工業級水平。

文章強調，真正的瓶頸在於軟件生態。國產芯片通常單卡內存較小，需要更多芯片，且通信帶寬可能較弱。從CUDA生態遷移到國產平台需要重建大量基礎設施。美團的工程指標包括：訓練MFU提升1.5倍，日均故障率降低70%以上，MFU超過30%，關鍵算子效率提升14%。這些數字背後是算子適配、通信優化、HCCL異常處理和自動故障恢復等紮實工作。

架構方面，LongCat-2.0繼承了LongCat-Flash的“零計算專家”和“短路連接MoE”技術。零計算專家顧名思義，即部分專家不進行計算，直接返回輸入，由路由器動態決定每個token使用多少真實專家和零計算專家。這使得激活參數從固定值變為一個範圍：LongCat-2.0中約為330億至560億，平均480億。這種設計讓模型對更難的token投入更多計算，對簡單的則較少。

值得注意的是，美團官方博客提到，排除N-gram嵌入後，LongCat-2.0的MoE稀疏度已達到約97%，而增加1350億專家參數帶來性能提升微乎其微。這可能意味着頂級MoE模型正在接近稀疏度上限。DeepSeek-V3和V4-Pro的稀疏度也分別在94%和97%左右。如果增加專家不再帶來顯著提升，未來的改進可能需要轉向注意力機制、上下文效率、後訓練數據、路由質量以及推理優化。

最令人信服的“基準測試”可能並非公共排行榜。LongCat-2.0以Owl Alpha匿名測試時，開發者需要為實際使用付費，這反映了真實需求。在倉庫級代碼理解和端到端任務執行方面，它似乎解決了開發者的痛點。

總體而言，LongCat-2.0並未單獨改變AI發展方向。但結合DeepSeek-V4、GLM-5.2和Kimi K2.7等模型，它推動了萬億參數開源模型、國產計算、低成本智能體能力和大規模開發者使用等組合實用化。對中國而言，其戰略價值在於減少對單一外國供應商的依賴，為繞過出口管制提供路徑，證明前沿規模訓練不一定需要英偉達。

如果一家外賣巨頭都能在沒有英偉達GPU的情況下訓練1.6萬億參數模型並獲得實際應用，那麼中國AI生態的廣度可能超出多數外部觀察者的預期。下一個問題不再是LongCat-2.0是否比Claude或GPT更好，而是這條“無英偉達”訓練路徑能否實現可重複性。