華為晶片助力DeepSeek模型精調,中國AI自主可控邁出重要一步
華為使用其昇騰910C晶片成功完成對DeepSeek-V4-Pro模型的後訓練,這是中國半導體產業在複雜AI模型訓練領域取得的關鍵突破。該專案由華為與多家研究機構合作,利用1000多顆晶片叢集實現了1.6萬億引數模型的全引數後訓練,展示了國產晶片從推理到訓練的能力跨越。此舉有助於提升中國AI產業鏈的自主性,在美製裁背景下推動國內替代方案的發展。
據深圳市政府週五釋出的訊息,華為技術有限公司及其合作研究團隊成功利用華為自研的昇騰910C晶片,完成了對DeepSeek-V4-Pro模型的後訓練。這標誌著中國半導體產業在從支援基礎AI推理轉向更復雜的模型訓練方面邁出了關鍵一步,而美國不斷收緊的出口管制正推動這一程序。
後訓練是模型開發中比推理更復雜的階段,它涉及根據人類指令、安全規則和具體任務來最佳化模型的效能。此前,國產計算資源主要用於推理——相當於為模型構建一條“單行道”:輸入問題,輸出答案。而本次專案實現了模型的“自我反思和調整”,如同在單行道上增加了複雜的立交橋和環路,使計算和通訊需求成倍增長。
研究團隊使用了至少1000顆華為晶片構建計算叢集,對DeepSeek目前最大的模型——擁有1.6萬億引數——進行了“全引數”後訓練,即更新和最佳化了模型的整個架構,沒有采取任何簡化措施。參與方包括華為、深圳灣區研究院、哈爾濱工業大學(深圳)以及深圳大數據研究院。
儘管美國限制從輝達和超威半導體等美國晶片巨頭獲取先進晶片,但這也迫使中國企業嘗試用國產晶片填補空白。例如,上個月百度執行副總裁沈抖表示,該公司文心5.1模型的一個主要版本已在基於崑崙芯晶片的叢集上成功完成訓練。今年4月,美團邀請使用者測試一個新的萬億引數AI模型,據稱該模型完全使用國產晶片訓練。
華為也在積極推動AI的自主行動能力。上週五,華為雲推出了新的“Agentic Infra”架構,其中包括一個用於推理和訓練的計算資源分配平臺,可將資源利用率提高30%以上。
此次使用華為晶片的成功試驗驗證了國產硬體在複雜訓練任務中的穩定性和有效性。據深圳灣區研究院5月宣佈,該模型完成了超過1500次訓練迭代,沒有一次中斷或錯誤,同時提升了模型的數學能力。這些進展將有助於增強中國AI產業鏈的自主可控能力。