AI News HubLIVE
站內改寫2 分鐘閱讀

美團在沒有輝達GPU的情況下訓練了1.6萬億引數AI模型

美團釋出了LongCat-2.0,一個1.6萬億引數的混合專家模型,完全基於國產AI ASIC超級計算機叢集訓練和部署,沒有使用輝達GPU。該模型在OpenRouter上以Owl Alpha的匿名名稱出現,獲得高使用量。雖然並非效能最強的模型,但此舉證明了國產計算生態的成熟度,為中國AI產業擺脫對輝達依賴提供了可行路徑。

來源Hacker News AI作者: mgh2

美團近日釋出了LongCat-2.0,一個擁有1.6萬億引數的基礎模型。但真正引人注目的並非引數規模,而是其訓練和部署方式:完全基於國產AI ASIC超級計算機叢集,沒有使用任何輝達GPU。這一訊息為中國AI產業提供了新的視角,尤其是在美國出口管制背景下。

LongCat-2.0採用混合專家架構,總引數1.6萬億,每個token啟用約480億引數。在正式釋出前,該模型以Owl Alpha的匿名名稱出現在OpenRouter平臺上,迅速升至總使用量第三,在Claude Code Agent場景中排名第二,僅次於Claude Opus 4.8。不過,從技術效能來看,LongCat-2.0並非全球最強模型,其智慧體能力接近Claude Opus 4.6,但不及4.8;編碼能力略高於GLM-5.1,但低於GLM-5.2。

關鍵點在於,LongCat-2.0是一個“零輝達”的萬億引數模型。從隨機初始化開始,到預訓練超過35萬億token,再到大規模部署,全部執行在國產AI ASIC超級計算機叢集上。報道稱,訓練過程沒有出現回滾或不可恢復的損失尖峰。這與以往國產計算敘事不同——以往多是利用國產晶片進行推理或後訓練,而LongCat-2.0則實現了完整的訓練和部署流水線。

硬體細節方面,美團官方並未透露具體晶片型號和數量。廣泛流傳的“5萬張昇騰910C”源自中國媒體和社群推斷,基於200Gbps RDMA和每晶片64GB HBM等線索。實際規模可能在5萬至6萬張之間。即便如此,這仍然是一個重大突破:從零訓練萬億引數模型對系統穩定性要求極高,而在非輝達堆疊下完成,意味著整個技術棧——晶片、互連、運算元、通訊庫、故障恢復和訓練穩定性——都達到了工業級水平。

文章強調,真正的瓶頸在於軟體生態。國產晶片通常單卡記憶體較小,需要更多晶片,且通訊頻寬可能較弱。從CUDA生態遷移到國產平臺需要重建大量基礎設施。美團的工程指標包括:訓練MFU提升1.5倍,日均故障率降低70%以上,MFU超過30%,關鍵運算元效率提升14%。這些數字背後是運算元適配、通訊最佳化、HCCL異常處理和自動故障恢復等紮實工作。

架構方面,LongCat-2.0繼承了LongCat-Flash的“零計算專家”和“短路連線MoE”技術。零計算專家顧名思義,即部分專家不進行計算,直接返回輸入,由路由器動態決定每個token使用多少真實專家和零計算專家。這使得啟用引數從固定值變為一個範圍:LongCat-2.0中約為330億至560億,平均480億。這種設計讓模型對更難的token投入更多計算,對簡單的則較少。

值得注意的是,美團官方部落格提到,排除N-gram嵌入後,LongCat-2.0的MoE稀疏度已達到約97%,而增加1350億專家引數帶來效能提升微乎其微。這可能意味著頂級MoE模型正在接近稀疏度上限。DeepSeek-V3和V4-Pro的稀疏度也分別在94%和97%左右。如果增加專家不再帶來顯著提升,未來的改進可能需要轉向注意力機制、上下文效率、後訓練資料、路由質量以及推理最佳化。

最令人信服的“基準測試”可能並非公共排行榜。LongCat-2.0以Owl Alpha匿名測試時,開發者需要為實際使用付費,這反映了真實需求。在倉庫級程式碼理解和端到端任務執行方面,它似乎解決了開發者的痛點。

總體而言,LongCat-2.0並未單獨改變AI發展方向。但結合DeepSeek-V4、GLM-5.2和Kimi K2.7等模型,它推動了萬億引數開源模型、國產計算、低成本智慧體能力和大規模開發者使用等組合實用化。對中國而言,其戰略價值在於減少對單一外國供應商的依賴,為繞過出口管制提供路徑,證明前沿規模訓練不一定需要輝達。

如果一家外賣巨頭都能在沒有輝達GPU的情況下訓練1.6萬億引數模型並獲得實際應用,那麼中國AI生態的廣度可能超出多數外部觀察者的預期。下一個問題不再是LongCat-2.0是否比Claude或GPT更好,而是這條“無輝達”訓練路徑能否實現可重複性。