AI News HubLIVE
站内改写2 分钟阅读

DeepSeek-V3新论文发布!通过硬件感知协同设计揭示低成本大模型训练的秘密

DeepSeek-V3团队发布了一篇14页的技术论文,由CEO梁文锋合著,探讨了硬件感知模型协同设计以克服扩展挑战。论文详细介绍了多头潜在注意力(MLA)、DeepSeekMoE、FP8训练和节点感知路由等创新,实现了经济高效的大规模训练和推理。

来源Synced Review作者: Synced

DeepSeek-V3团队近日发布了一篇14页的技术论文,由DeepSeek CEO梁文锋作为合著者,深入探讨了“AI架构的扩展挑战与硬件反思”。这篇论文是此前技术报告的延续,重点研究了大语言模型(LLM)开发、训练与底层硬件基础设施之间的复杂关系。论文超越了DeepSeek-V3的架构细节,探索如何通过硬件感知模型协同设计有效解决当前硬件的局限性,从而实现经济高效的大规模训练和推理。

论文指出,LLM的快速扩展暴露了当前硬件架构的关键瓶颈,特别是内存容量、计算效率和互连带宽方面。DeepSeek-V3在2048块NVIDIA H800 GPU集群上训练,是一个有力的案例研究,展示了模型设计与硬件考虑之间的协同方法如何克服这些限制。研究聚焦于硬件架构与模型设计之间的相互作用,以实现经济的大规模训练和推理,旨在提供切实可行的见解,以便在不牺牲性能或可及性的情况下高效扩展LLM。

论文的重点领域包括:硬件驱动的模型设计,分析硬件特性(如FP8低精度计算和扩展/扩展网络属性)如何影响DeepSeek-V3中的架构选择;硬件-模型相互依赖关系,研究硬件能力如何塑造模型创新,以及LLM不断变化的需求如何驱动下一代硬件的需求;未来硬件发展方向,从DeepSeek-V3中汲取实用见解,指导未来硬件和模型架构的协同设计,以实现可扩展且经济高效的AI系统。

DeepSeek-V3的设计原则直接解决了LLM扩展的核心挑战:内存效率、成本效益和推理速度。在内存效率方面,多头潜在注意力(MLA)通过投影矩阵将注意力头的键值(KV)表示压缩为更小的潜在向量,显著减少内存消耗。论文还比较了DeepSeek-V3、Qwen-2.5 72B和LLaMA-3.1 405B的每token KV缓存内存占用,DeepSeek-V3仅需70 KB,远低于后两者。在成本效益上,DeepSeekMoE架构通过稀疏计算,每token仅激活37B参数(总参数671B),实现了与密集模型相当或更优的性能,但计算成本低一个数量级。此外,MoE架构还利于本地部署,例如DeepSeek-V2在个人电脑上可实现每秒20 token以上的推理速度。

推理速度方面,DeepSeek采用双微批处理重叠架构,将计算与通信延迟重叠,同时将MLA和MoE的计算解耦为独立阶段,实现流水线化处理。生产环境中,采用预填充和解码分离架构,最大化系统吞吐量。论文还讨论了测试时扩展对推理模型的重要性,以及高token输出速度在强化学习流程中的作用。

低精度驱动设计是另一大亮点。DeepSeek率先在大型MoE模型中使用FP8混合精度训练,显著降低计算成本。同时采用LogFMT低精度压缩进行网络通信,将通信量减少50%。此外,还探索了LogFMT-nBit等新型数据类型。

互连驱动设计方面,DeepSeek分析了H800 GPU架构的限制(NVLink带宽降低至400 GB/s),并采用硬件感知并行化策略:避免张量并行、增强流水线并行和加速专家并行。节点感知路由策略利用4:1的带宽差异(NVLink约160 GB/s,IB约40 GB/s),将256个路由专家分组到8个节点,确保每个token最多路由到4个节点,从而缓解IB通信瓶颈。

论文还讨论了扩展与扩展网络的融合,倡导统一通信框架,集成专用协处理器以管理网络流量。针对带宽争用问题,建议动态NVLink/PCIe流量优先级排序、I/O芯片集成等。最后,多平面胖树(MPFT)网络拓扑被用于DeepSeek-V3训练,支持高基数扩展和高效的负载均衡。

这篇论文为低成本大规模AI训练提供了深入的实践指南,强调了硬件与模型协同设计的必要性。