AI News HubLIVE
サイト内リライト3 分で読了

DeepSeek-V3新論文発表!ハードウェア認識協調設計による低コスト大規模モデルトレーニングの秘密を解明

DeepSeek-V3チームが14ページの技術論文を発表。CEOの梁文鋒氏が共著者として参加し、スケーリングの課題を克服するためのハードウェア認識モデル協調設計を探求。マルチヘッド潜在注意(MLA)、DeepSeekMoE、FP8トレーニング、ノード認識ルーティングなどの革新を詳述し、コスト効率の高い大規模トレーニングと推論を実現。

ソースSynced Review著者: Synced

DeepSeek-V3チームは先ごろ、14ページの技術論文を公開しました。CEOの梁文鋒氏が共同執筆者として参加したこの論文は、「AIアーキテクチャのスケーリング課題とハードウェアに関する考察」に焦点を当てています。これは以前のテクニカルレポートの続編であり、大規模言語モデル(LLM)の開発、トレーニング、および基盤となるハードウェアインフラストラクチャの複雑な関係を掘り下げています。論文はDeepSeek-V3のアーキテクチャ詳細を超えて、ハードウェア認識モデル協調設計が現在のハードウェアの限界に効果的に対処し、最終的にコスト効率の高い大規模トレーニングと推論を可能にする方法を探求しています。

LLMの急速なスケーリングにより、現在のハードウェアアーキテクチャの重大なボトルネック、特にメモリ容量、計算効率、相互接続帯域幅が露呈しています。DeepSeek-V3は2048基のNVIDIA H800 GPUクラスタでトレーニングされ、モデル設計とハードウェア考慮の相乗的アプローチがこれらの制限を克服できることを示す説得力のあるケーススタディとなっています。この研究は、経済的な大規模トレーニングと推論を実現するためのハードウェアアーキテクチャとモデル設計の相互作用に焦点を当て、パフォーマンスやアクセシビリティを損なうことなくLLMを効率的にスケーリングするための実用的な洞察を提供することを目的としています。

論文の主要な焦点領域は以下の通りです。

  • ハードウェア駆動型モデル設計:FP8低精度計算やスケールアップ/スケールアウトネットワーク特性などのハードウェア特性が、DeepSeek-V3内のアーキテクチャ選択にどのように影響するかを分析。
  • ハードウェア-モデル相互依存性:ハードウェア能力がモデルイノベーションをどのように形成し、LLMの進化する要求が次世代ハードウェアの要件をどのように駆動するかを調査。
  • 今後のハードウェア開発の方向性:スケーラブルでコスト効率の高いAIシステムのための将来のハードウェアとモデルアーキテクチャの協調設計を導くために、DeepSeek-V3からの実用的な洞察を抽出。

DeepSeek-V3の設計原則は、LLMスケーリングの中核的課題であるメモリ効率、コスト効率、推論速度に直接取り組んでいます。メモリ効率に関しては、マルチヘッド潜在注意(MLA)がプロジェクション行列を使用してすべての注意ヘッドのキー値(KV)表現をより小さな潜在ベクトルに圧縮し、メモリ消費を大幅に削減します。論文では、DeepSeek-V3、Qwen-2.5 72B、LLaMA-3.1 405BのトークンあたりのKVキャッシュメモリフットプリントを比較し、DeepSeek-V3はトークンあたりわずか70 KBを必要とし、LLaMA-3.1 405Bの516 KBやQwen-2.5 72Bの327 KBよりも大幅に低いことを示しています。

コスト効率の面では、DeepSeekMoEアーキテクチャがスパース計算を採用し、トークンあたりわずか37Bのパラメータ(総パラメータ671B)をアクティブ化することで、密度モデルと同等以上の性能を達成しながら、計算コストを一桁削減します。また、MoEアーキテクチャはローカル展開にも有利であり、例えばDeepSeek-V2はAI SoC搭載のパソコンで毎秒20トークン以上の推論速度を実現します。

推論速度の向上には、デュアルマイクロバッチ重複アーキテクチャを採用し、通信レイテンシを計算と意図的に重複させます。また、MLAとMoEの計算を独立したステージに分離し、パイプライン処理を実現します。本番環境では、プリフィルとデコードを分離したアーキテクチャを使用し、システムスループットを最大化します。

低精度駆動設計では、DeepSeekは大規模MoEモデルでFP8混合精度トレーニングを初めて採用し、計算コストを大幅に削減しました。また、LogFMTを使用した低精度圧縮により、通信量を50%削減しています。

相互接続駆動設計では、H800 GPUの制限(NVLink帯域幅が400 GB/sに低下)を考慮し、ハードウェア認識並列化戦略(テンソル並列の回避、パイプライン並列の強化、エキスパート並列の高速化)を採用。ノード認識ルーティングにより、256のルーティングエキスパートを8つのノードにグループ化し、トークンが最大4つのノードにルーティングされるようにすることで、IB通信のボトルネックを緩和します。

論文はまた、スケールアップとスケールアウトの統合、帯域幅競合、大規模ネットワーク(マルチプレーンファットツリー)についても議論しています。この論文は、低コストで大規模なAIトレーニングを実現するための実践的なガイドを提供し、ハードウェアとモデルの協調設計の重要性を強調しています。