華為芯片助力DeepSeek模型精調,中國AI自主可控邁出重要一步
華為使用其昇騰910C芯片成功完成對DeepSeek-V4-Pro模型的後訓練,這是中國半導體產業在複雜AI模型訓練領域取得的關鍵突破。該項目由華為與多家研究機構合作,利用1000多顆芯片集羣實現了1.6萬億參數模型的全參數後訓練,展示了國產芯片從推理到訓練的能力跨越。此舉有助於提升中國AI產業鏈的自主性,在美製裁背景下推動國內替代方案的發展。
據深圳市政府週五發佈的消息,華為技術有限公司及其合作研究團隊成功利用華為自研的昇騰910C芯片,完成了對DeepSeek-V4-Pro模型的後訓練。這標誌着中國半導體產業在從支持基礎AI推理轉向更復雜的模型訓練方面邁出了關鍵一步,而美國不斷收緊的出口管制正推動這一進程。
後訓練是模型開發中比推理更復雜的階段,它涉及根據人類指令、安全規則和具體任務來優化模型的性能。此前,國產計算資源主要用於推理——相當於為模型構建一條“單行道”:輸入問題,輸出答案。而本次項目實現了模型的“自我反思和調整”,如同在單行道上增加了複雜的立交橋和環路,使計算和通信需求成倍增長。
研究團隊使用了至少1000顆華為芯片構建計算集羣,對DeepSeek目前最大的模型——擁有1.6萬億參數——進行了“全參數”後訓練,即更新和優化了模型的整個架構,沒有采取任何簡化措施。參與方包括華為、深圳灣區研究院、哈爾濱工業大學(深圳)以及深圳大數據研究院。
儘管美國限制從英偉達和超威半導體等美國芯片巨頭獲取先進芯片,但這也迫使中國企業嘗試用國產芯片填補空白。例如,上個月百度執行副總裁沈抖表示,該公司文心5.1模型的一個主要版本已在基於崑崙芯芯片的集羣上成功完成訓練。今年4月,美團邀請用户測試一個新的萬億參數AI模型,據稱該模型完全使用國產芯片訓練。
華為也在積極推動AI的自主行動能力。上週五,華為雲推出了新的“Agentic Infra”架構,其中包括一個用於推理和訓練的計算資源分配平台,可將資源利用率提高30%以上。
此次使用華為芯片的成功試驗驗證了國產硬件在複雜訓練任務中的穩定性和有效性。據深圳灣區研究院5月宣佈,該模型完成了超過1500次訓練迭代,沒有一次中斷或錯誤,同時提升了模型的數學能力。這些進展將有助於增強中國AI產業鏈的自主可控能力。