2025-05-16 01:58 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-27 08:25 UTC+8

DeepSeek-V3新論文發佈！通過硬件感知協同設計揭示低成本大模型訓練的秘密

DeepSeek-V3團隊發佈了一篇14頁的技術論文，由CEO梁文鋒合著，探討了硬件感知模型協同設計以克服擴展挑戰。論文詳細介紹了多頭潛在注意力（MLA）、DeepSeekMoE、FP8訓練和節點感知路由等創新，實現了經濟高效的大規模訓練和推理。

來源Synced Review作者: Synced

DeepSeek-V3團隊近日發佈了一篇14頁的技術論文，由DeepSeek CEO梁文鋒作為合著者，深入探討了“AI架構的擴展挑戰與硬件反思”。這篇論文是此前技術報告的延續，重點研究了大語言模型（LLM）開發、訓練與底層硬件基礎設施之間的複雜關係。論文超越了DeepSeek-V3的架構細節，探索如何通過硬件感知模型協同設計有效解決當前硬件的侷限性，從而實現經濟高效的大規模訓練和推理。

論文指出，LLM的快速擴展暴露了當前硬件架構的關鍵瓶頸，特別是內存容量、計算效率和互連帶寬方面。DeepSeek-V3在2048塊NVIDIA H800 GPU集羣上訓練，是一個有力的案例研究，展示了模型設計與硬件考慮之間的協同方法如何克服這些限制。研究聚焦於硬件架構與模型設計之間的相互作用，以實現經濟的大規模訓練和推理，旨在提供切實可行的見解，以便在不犧牲性能或可及性的情況下高效擴展LLM。

論文的重點領域包括：硬件驅動的模型設計，分析硬件特性（如FP8低精度計算和擴展/擴展網絡屬性）如何影響DeepSeek-V3中的架構選擇；硬件-模型相互依賴關係，研究硬件能力如何塑造模型創新，以及LLM不斷變化的需求如何驅動下一代硬件的需求；未來硬件發展方向，從DeepSeek-V3中汲取實用見解，指導未來硬件和模型架構的協同設計，以實現可擴展且經濟高效的AI系統。

DeepSeek-V3的設計原則直接解決了LLM擴展的核心挑戰：內存效率、成本效益和推理速度。在內存效率方面，多頭潛在注意力（MLA）通過投影矩陣將注意力頭的鍵值（KV）表示壓縮為更小的潛在向量，顯著減少內存消耗。論文還比較了DeepSeek-V3、Qwen-2.5 72B和LLaMA-3.1 405B的每token KV緩存內存佔用，DeepSeek-V3僅需70 KB，遠低於後兩者。在成本效益上，DeepSeekMoE架構通過稀疏計算，每token僅激活37B參數（總參數671B），實現了與密集模型相當或更優的性能，但計算成本低一個數量級。此外，MoE架構還利於本地部署，例如DeepSeek-V2在個人電腦上可實現每秒20 token以上的推理速度。

推理速度方面，DeepSeek採用雙微批處理重疊架構，將計算與通信延遲重疊，同時將MLA和MoE的計算解耦為獨立階段，實現流水線化處理。生產環境中，採用預填充和解碼分離架構，最大化系統吞吐量。論文還討論了測試時擴展對推理模型的重要性，以及高token輸出速度在強化學習流程中的作用。

低精度驅動設計是另一大亮點。DeepSeek率先在大型MoE模型中使用FP8混合精度訓練，顯著降低計算成本。同時採用LogFMT低精度壓縮進行網絡通信，將通信量減少50%。此外，還探索了LogFMT-nBit等新型數據類型。

互連驅動設計方面，DeepSeek分析了H800 GPU架構的限制（NVLink帶寬降低至400 GB/s），並採用硬件感知並行化策略：避免張量並行、增強流水線並行和加速專家並行。節點感知路由策略利用4:1的帶寬差異（NVLink約160 GB/s，IB約40 GB/s），將256個路由專家分組到8個節點，確保每個token最多路由到4個節點，從而緩解IB通信瓶頸。

論文還討論了擴展與擴展網絡的融合，倡導統一通信框架，集成專用協處理器以管理網絡流量。針對帶寬爭用問題，建議動態NVLink/PCIe流量優先級排序、I/O芯片集成等。最後，多平面胖樹（MPFT）網絡拓撲被用於DeepSeek-V3訓練，支持高基數擴展和高效的負載均衡。

這篇論文為低成本大規模AI訓練提供了深入的實踐指南，強調了硬件與模型協同設計的必要性。