华为芯片助力DeepSeek模型精调,中国AI自主可控迈出重要一步
华为使用其昇腾910C芯片成功完成对DeepSeek-V4-Pro模型的后训练,这是中国半导体产业在复杂AI模型训练领域取得的关键突破。该项目由华为与多家研究机构合作,利用1000多颗芯片集群实现了1.6万亿参数模型的全参数后训练,展示了国产芯片从推理到训练的能力跨越。此举有助于提升中国AI产业链的自主性,在美制裁背景下推动国内替代方案的发展。
据深圳市政府周五发布的消息,华为技术有限公司及其合作研究团队成功利用华为自研的昇腾910C芯片,完成了对DeepSeek-V4-Pro模型的后训练。这标志着中国半导体产业在从支持基础AI推理转向更复杂的模型训练方面迈出了关键一步,而美国不断收紧的出口管制正推动这一进程。
后训练是模型开发中比推理更复杂的阶段,它涉及根据人类指令、安全规则和具体任务来优化模型的性能。此前,国产计算资源主要用于推理——相当于为模型构建一条“单行道”:输入问题,输出答案。而本次项目实现了模型的“自我反思和调整”,如同在单行道上增加了复杂的立交桥和环路,使计算和通信需求成倍增长。
研究团队使用了至少1000颗华为芯片构建计算集群,对DeepSeek目前最大的模型——拥有1.6万亿参数——进行了“全参数”后训练,即更新和优化了模型的整个架构,没有采取任何简化措施。参与方包括华为、深圳湾区研究院、哈尔滨工业大学(深圳)以及深圳大数据研究院。
尽管美国限制从英伟达和超威半导体等美国芯片巨头获取先进芯片,但这也迫使中国企业尝试用国产芯片填补空白。例如,上个月百度执行副总裁沈抖表示,该公司文心5.1模型的一个主要版本已在基于昆仑芯芯片的集群上成功完成训练。今年4月,美团邀请用户测试一个新的万亿参数AI模型,据称该模型完全使用国产芯片训练。
华为也在积极推动AI的自主行动能力。上周五,华为云推出了新的“Agentic Infra”架构,其中包括一个用于推理和训练的计算资源分配平台,可将资源利用率提高30%以上。
此次使用华为芯片的成功试验验证了国产硬件在复杂训练任务中的稳定性和有效性。据深圳湾区研究院5月宣布,该模型完成了超过1500次训练迭代,没有一次中断或错误,同时提升了模型的数学能力。这些进展将有助于增强中国AI产业链的自主可控能力。