2025-05-16 01:58 UTC+8站内改写2 分钟阅读更新: 2026-06-27 08:25 UTC+8

DeepSeek-V3新论文发布！通过硬件感知协同设计揭示低成本大模型训练的秘密

DeepSeek-V3团队发布了一篇14页的技术论文，由CEO梁文锋合著，探讨了硬件感知模型协同设计以克服扩展挑战。论文详细介绍了多头潜在注意力（MLA）、DeepSeekMoE、FP8训练和节点感知路由等创新，实现了经济高效的大规模训练和推理。

来源Synced Review作者: Synced

DeepSeek-V3团队近日发布了一篇14页的技术论文，由DeepSeek CEO梁文锋作为合著者，深入探讨了“AI架构的扩展挑战与硬件反思”。这篇论文是此前技术报告的延续，重点研究了大语言模型（LLM）开发、训练与底层硬件基础设施之间的复杂关系。论文超越了DeepSeek-V3的架构细节，探索如何通过硬件感知模型协同设计有效解决当前硬件的局限性，从而实现经济高效的大规模训练和推理。

论文指出，LLM的快速扩展暴露了当前硬件架构的关键瓶颈，特别是内存容量、计算效率和互连带宽方面。DeepSeek-V3在2048块NVIDIA H800 GPU集群上训练，是一个有力的案例研究，展示了模型设计与硬件考虑之间的协同方法如何克服这些限制。研究聚焦于硬件架构与模型设计之间的相互作用，以实现经济的大规模训练和推理，旨在提供切实可行的见解，以便在不牺牲性能或可及性的情况下高效扩展LLM。

论文的重点领域包括：硬件驱动的模型设计，分析硬件特性（如FP8低精度计算和扩展/扩展网络属性）如何影响DeepSeek-V3中的架构选择；硬件-模型相互依赖关系，研究硬件能力如何塑造模型创新，以及LLM不断变化的需求如何驱动下一代硬件的需求；未来硬件发展方向，从DeepSeek-V3中汲取实用见解，指导未来硬件和模型架构的协同设计，以实现可扩展且经济高效的AI系统。

DeepSeek-V3的设计原则直接解决了LLM扩展的核心挑战：内存效率、成本效益和推理速度。在内存效率方面，多头潜在注意力（MLA）通过投影矩阵将注意力头的键值（KV）表示压缩为更小的潜在向量，显著减少内存消耗。论文还比较了DeepSeek-V3、Qwen-2.5 72B和LLaMA-3.1 405B的每token KV缓存内存占用，DeepSeek-V3仅需70 KB，远低于后两者。在成本效益上，DeepSeekMoE架构通过稀疏计算，每token仅激活37B参数（总参数671B），实现了与密集模型相当或更优的性能，但计算成本低一个数量级。此外，MoE架构还利于本地部署，例如DeepSeek-V2在个人电脑上可实现每秒20 token以上的推理速度。

推理速度方面，DeepSeek采用双微批处理重叠架构，将计算与通信延迟重叠，同时将MLA和MoE的计算解耦为独立阶段，实现流水线化处理。生产环境中，采用预填充和解码分离架构，最大化系统吞吐量。论文还讨论了测试时扩展对推理模型的重要性，以及高token输出速度在强化学习流程中的作用。

低精度驱动设计是另一大亮点。DeepSeek率先在大型MoE模型中使用FP8混合精度训练，显著降低计算成本。同时采用LogFMT低精度压缩进行网络通信，将通信量减少50%。此外，还探索了LogFMT-nBit等新型数据类型。

互连驱动设计方面，DeepSeek分析了H800 GPU架构的限制（NVLink带宽降低至400 GB/s），并采用硬件感知并行化策略：避免张量并行、增强流水线并行和加速专家并行。节点感知路由策略利用4:1的带宽差异（NVLink约160 GB/s，IB约40 GB/s），将256个路由专家分组到8个节点，确保每个token最多路由到4个节点，从而缓解IB通信瓶颈。

论文还讨论了扩展与扩展网络的融合，倡导统一通信框架，集成专用协处理器以管理网络流量。针对带宽争用问题，建议动态NVLink/PCIe流量优先级排序、I/O芯片集成等。最后，多平面胖树（MPFT）网络拓扑被用于DeepSeek-V3训练，支持高基数扩展和高效的负载均衡。

这篇论文为低成本大规模AI训练提供了深入的实践指南，强调了硬件与模型协同设计的必要性。