2026-07-05 12:59 UTC+8站內改寫2 分鐘閱讀更新: 2026-07-05 13:42 UTC+8

美團在沒有輝達GPU的情況下訓練了1.6萬億引數AI模型

美團釋出了LongCat-2.0，一個1.6萬億引數的混合專家模型，完全基於國產AI ASIC超級計算機叢集訓練和部署，沒有使用輝達GPU。該模型在OpenRouter上以Owl Alpha的匿名名稱出現，獲得高使用量。雖然並非效能最強的模型，但此舉證明了國產計算生態的成熟度，為中國AI產業擺脫對輝達依賴提供了可行路徑。

來源Hacker News AI作者: mgh2

美團近日釋出了LongCat-2.0，一個擁有1.6萬億引數的基礎模型。但真正引人注目的並非引數規模，而是其訓練和部署方式：完全基於國產AI ASIC超級計算機叢集，沒有使用任何輝達GPU。這一訊息為中國AI產業提供了新的視角，尤其是在美國出口管制背景下。

LongCat-2.0採用混合專家架構，總引數1.6萬億，每個token啟用約480億引數。在正式釋出前，該模型以Owl Alpha的匿名名稱出現在OpenRouter平臺上，迅速升至總使用量第三，在Claude Code Agent場景中排名第二，僅次於Claude Opus 4.8。不過，從技術效能來看，LongCat-2.0並非全球最強模型，其智慧體能力接近Claude Opus 4.6，但不及4.8；編碼能力略高於GLM-5.1，但低於GLM-5.2。

關鍵點在於，LongCat-2.0是一個“零輝達”的萬億引數模型。從隨機初始化開始，到預訓練超過35萬億token，再到大規模部署，全部執行在國產AI ASIC超級計算機叢集上。報道稱，訓練過程沒有出現回滾或不可恢復的損失尖峰。這與以往國產計算敘事不同——以往多是利用國產晶片進行推理或後訓練，而LongCat-2.0則實現了完整的訓練和部署流水線。

硬體細節方面，美團官方並未透露具體晶片型號和數量。廣泛流傳的“5萬張昇騰910C”源自中國媒體和社群推斷，基於200Gbps RDMA和每晶片64GB HBM等線索。實際規模可能在5萬至6萬張之間。即便如此，這仍然是一個重大突破：從零訓練萬億引數模型對系統穩定性要求極高，而在非輝達堆疊下完成，意味著整個技術棧——晶片、互連、運算元、通訊庫、故障恢復和訓練穩定性——都達到了工業級水平。

文章強調，真正的瓶頸在於軟體生態。國產晶片通常單卡記憶體較小，需要更多晶片，且通訊頻寬可能較弱。從CUDA生態遷移到國產平臺需要重建大量基礎設施。美團的工程指標包括：訓練MFU提升1.5倍，日均故障率降低70%以上，MFU超過30%，關鍵運算元效率提升14%。這些數字背後是運算元適配、通訊最佳化、HCCL異常處理和自動故障恢復等紮實工作。

架構方面，LongCat-2.0繼承了LongCat-Flash的“零計算專家”和“短路連線MoE”技術。零計算專家顧名思義，即部分專家不進行計算，直接返回輸入，由路由器動態決定每個token使用多少真實專家和零計算專家。這使得啟用引數從固定值變為一個範圍：LongCat-2.0中約為330億至560億，平均480億。這種設計讓模型對更難的token投入更多計算，對簡單的則較少。

值得注意的是，美團官方部落格提到，排除N-gram嵌入後，LongCat-2.0的MoE稀疏度已達到約97%，而增加1350億專家引數帶來效能提升微乎其微。這可能意味著頂級MoE模型正在接近稀疏度上限。DeepSeek-V3和V4-Pro的稀疏度也分別在94%和97%左右。如果增加專家不再帶來顯著提升，未來的改進可能需要轉向注意力機制、上下文效率、後訓練資料、路由質量以及推理最佳化。

最令人信服的“基準測試”可能並非公共排行榜。LongCat-2.0以Owl Alpha匿名測試時，開發者需要為實際使用付費，這反映了真實需求。在倉庫級程式碼理解和端到端任務執行方面，它似乎解決了開發者的痛點。

總體而言，LongCat-2.0並未單獨改變AI發展方向。但結合DeepSeek-V4、GLM-5.2和Kimi K2.7等模型，它推動了萬億引數開源模型、國產計算、低成本智慧體能力和大規模開發者使用等組合實用化。對中國而言，其戰略價值在於減少對單一外國供應商的依賴，為繞過出口管制提供路徑，證明前沿規模訓練不一定需要輝達。

如果一家外賣巨頭都能在沒有輝達GPU的情況下訓練1.6萬億引數模型並獲得實際應用，那麼中國AI生態的廣度可能超出多數外部觀察者的預期。下一個問題不再是LongCat-2.0是否比Claude或GPT更好，而是這條“無輝達”訓練路徑能否實現可重複性。