AI News HubLIVE
站內改寫2 分鐘閱讀

DeepSeek-V3新論文釋出!透過硬體感知協同設計揭示低成本大模型訓練的秘密

DeepSeek-V3團隊釋出了一篇14頁的技術論文,由CEO梁文鋒合著,探討了硬體感知模型協同設計以克服擴充套件挑戰。論文詳細介紹了多頭潛在注意力(MLA)、DeepSeekMoE、FP8訓練和節點感知路由等創新,實現了經濟高效的大規模訓練和推理。

來源Synced Review作者: Synced

DeepSeek-V3團隊近日釋出了一篇14頁的技術論文,由DeepSeek CEO梁文鋒作為合著者,深入探討了“AI架構的擴充套件挑戰與硬體反思”。這篇論文是此前技術報告的延續,重點研究了大語言模型(LLM)開發、訓練與底層硬體基礎設施之間的複雜關係。論文超越了DeepSeek-V3的架構細節,探索如何透過硬體感知模型協同設計有效解決當前硬體的侷限性,從而實現經濟高效的大規模訓練和推理。

論文指出,LLM的快速擴充套件暴露了當前硬體架構的關鍵瓶頸,特別是記憶體容量、計算效率和互連頻寬方面。DeepSeek-V3在2048塊NVIDIA H800 GPU叢集上訓練,是一個有力的案例研究,展示了模型設計與硬體考慮之間的協同方法如何克服這些限制。研究聚焦於硬體架構與模型設計之間的相互作用,以實現經濟的大規模訓練和推理,旨在提供切實可行的見解,以便在不犧牲效能或可及性的情況下高效擴充套件LLM。

論文的重點領域包括:硬體驅動的模型設計,分析硬體特性(如FP8低精度計算和擴充套件/擴充套件網路屬性)如何影響DeepSeek-V3中的架構選擇;硬體-模型相互依賴關係,研究硬體能力如何塑造模型創新,以及LLM不斷變化的需求如何驅動下一代硬體的需求;未來硬體發展方向,從DeepSeek-V3中汲取實用見解,指導未來硬體和模型架構的協同設計,以實現可擴充套件且經濟高效的AI系統。

DeepSeek-V3的設計原則直接解決了LLM擴充套件的核心挑戰:記憶體效率、成本效益和推理速度。在記憶體效率方面,多頭潛在注意力(MLA)透過投影矩陣將注意力頭的鍵值(KV)表示壓縮為更小的潛在向量,顯著減少記憶體消耗。論文還比較了DeepSeek-V3、Qwen-2.5 72B和LLaMA-3.1 405B的每token KV快取記憶體佔用,DeepSeek-V3僅需70 KB,遠低於後兩者。在成本效益上,DeepSeekMoE架構透過稀疏計算,每token僅啟用37B引數(總引數671B),實現了與密集模型相當或更優的效能,但計算成本低一個數量級。此外,MoE架構還利於本地部署,例如DeepSeek-V2在個人電腦上可實現每秒20 token以上的推理速度。

推理速度方面,DeepSeek採用雙微批處理重疊架構,將計算與通訊延遲重疊,同時將MLA和MoE的計算解耦為獨立階段,實現流水線化處理。生產環境中,採用預填充和解碼分離架構,最大化系統吞吐量。論文還討論了測試時擴充套件對推理模型的重要性,以及高token輸出速度在強化學習流程中的作用。

低精度驅動設計是另一大亮點。DeepSeek率先在大型MoE模型中使用FP8混合精度訓練,顯著降低計算成本。同時採用LogFMT低精度壓縮排行網路通訊,將通訊量減少50%。此外,還探索了LogFMT-nBit等新型資料型別。

互連驅動設計方面,DeepSeek分析了H800 GPU架構的限制(NVLink頻寬降低至400 GB/s),並採用硬體感知並行化策略:避免張量並行、增強流水線並行和加速專家並行。節點感知路由策略利用4:1的頻寬差異(NVLink約160 GB/s,IB約40 GB/s),將256個路由專家分組到8個節點,確保每個token最多路由到4個節點,從而緩解IB通訊瓶頸。

論文還討論了擴充套件與擴充套件網路的融合,倡導統一通訊框架,整合專用協處理器以管理網路流量。針對頻寬爭用問題,建議動態NVLink/PCIe流量優先順序排序、I/O晶片整合等。最後,多平面胖樹(MPFT)網路拓撲被用於DeepSeek-V3訓練,支援高基數擴充套件和高效的負載均衡。

這篇論文為低成本大規模AI訓練提供了深入的實踐指南,強調了硬體與模型協同設計的必要性。