2025-05-16 01:58 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-27 08:25 UTC+8

DeepSeek-V3新論文釋出！透過硬體感知協同設計揭示低成本大模型訓練的秘密

DeepSeek-V3團隊釋出了一篇14頁的技術論文，由CEO梁文鋒合著，探討了硬體感知模型協同設計以克服擴充套件挑戰。論文詳細介紹了多頭潛在注意力（MLA）、DeepSeekMoE、FP8訓練和節點感知路由等創新，實現了經濟高效的大規模訓練和推理。

來源Synced Review作者: Synced

DeepSeek-V3團隊近日釋出了一篇14頁的技術論文，由DeepSeek CEO梁文鋒作為合著者，深入探討了“AI架構的擴充套件挑戰與硬體反思”。這篇論文是此前技術報告的延續，重點研究了大語言模型（LLM）開發、訓練與底層硬體基礎設施之間的複雜關係。論文超越了DeepSeek-V3的架構細節，探索如何透過硬體感知模型協同設計有效解決當前硬體的侷限性，從而實現經濟高效的大規模訓練和推理。

論文指出，LLM的快速擴充套件暴露了當前硬體架構的關鍵瓶頸，特別是記憶體容量、計算效率和互連頻寬方面。DeepSeek-V3在2048塊NVIDIA H800 GPU叢集上訓練，是一個有力的案例研究，展示了模型設計與硬體考慮之間的協同方法如何克服這些限制。研究聚焦於硬體架構與模型設計之間的相互作用，以實現經濟的大規模訓練和推理，旨在提供切實可行的見解，以便在不犧牲效能或可及性的情況下高效擴充套件LLM。

論文的重點領域包括：硬體驅動的模型設計，分析硬體特性（如FP8低精度計算和擴充套件/擴充套件網路屬性）如何影響DeepSeek-V3中的架構選擇；硬體-模型相互依賴關係，研究硬體能力如何塑造模型創新，以及LLM不斷變化的需求如何驅動下一代硬體的需求；未來硬體發展方向，從DeepSeek-V3中汲取實用見解，指導未來硬體和模型架構的協同設計，以實現可擴充套件且經濟高效的AI系統。

DeepSeek-V3的設計原則直接解決了LLM擴充套件的核心挑戰：記憶體效率、成本效益和推理速度。在記憶體效率方面，多頭潛在注意力（MLA）透過投影矩陣將注意力頭的鍵值（KV）表示壓縮為更小的潛在向量，顯著減少記憶體消耗。論文還比較了DeepSeek-V3、Qwen-2.5 72B和LLaMA-3.1 405B的每token KV快取記憶體佔用，DeepSeek-V3僅需70 KB，遠低於後兩者。在成本效益上，DeepSeekMoE架構透過稀疏計算，每token僅啟用37B引數（總引數671B），實現了與密集模型相當或更優的效能，但計算成本低一個數量級。此外，MoE架構還利於本地部署，例如DeepSeek-V2在個人電腦上可實現每秒20 token以上的推理速度。

推理速度方面，DeepSeek採用雙微批處理重疊架構，將計算與通訊延遲重疊，同時將MLA和MoE的計算解耦為獨立階段，實現流水線化處理。生產環境中，採用預填充和解碼分離架構，最大化系統吞吐量。論文還討論了測試時擴充套件對推理模型的重要性，以及高token輸出速度在強化學習流程中的作用。

低精度驅動設計是另一大亮點。DeepSeek率先在大型MoE模型中使用FP8混合精度訓練，顯著降低計算成本。同時採用LogFMT低精度壓縮排行網路通訊，將通訊量減少50%。此外，還探索了LogFMT-nBit等新型資料型別。

互連驅動設計方面，DeepSeek分析了H800 GPU架構的限制（NVLink頻寬降低至400 GB/s），並採用硬體感知並行化策略：避免張量並行、增強流水線並行和加速專家並行。節點感知路由策略利用4:1的頻寬差異（NVLink約160 GB/s，IB約40 GB/s），將256個路由專家分組到8個節點，確保每個token最多路由到4個節點，從而緩解IB通訊瓶頸。

論文還討論了擴充套件與擴充套件網路的融合，倡導統一通訊框架，整合專用協處理器以管理網路流量。針對頻寬爭用問題，建議動態NVLink/PCIe流量優先順序排序、I/O晶片整合等。最後，多平面胖樹（MPFT）網路拓撲被用於DeepSeek-V3訓練，支援高基數擴充套件和高效的負載均衡。

這篇論文為低成本大規模AI訓練提供了深入的實踐指南，強調了硬體與模型協同設計的必要性。