Show HN: AIインフラストラクチャナレッジベース
物理データセンター、InfiniBandファブリックからKubernetes、Slurm、Ray、分散トレーニング、強化学習後トレーニング、大規模LLM推論サービスまで、GPUクラスターのデプロイ、運用、最適化のための実用的で引用可能なナレッジベース。NVIDIA全製品(Ampere、Hopper、BlackwellデータセンターGPU、RTXコンシューマー/ワークステーションカード、DGXシステム(DGX Spark含む))をカバーし、現在はBlackwell Ultra(B300/GB300 NVL72)世代に焦点を当てています。2026年半ばまで最新情報に対応。
AIインフラストラクチャナレッジベースは、setloop.ioによって構築・維持されており、GPUクラスターのデプロイ、運用、最適化のための実用的で引用可能なリファレンスを提供します。その範囲は、物理データセンターやInfiniBandファブリックから、Kubernetes、Slurm、Rayなどのオーケストレーションプラットフォーム、分散トレーニング、強化学習後トレーニング、大規模LLM推論サービスに至るまで、テクノロジースタック全体をカバーしています。このナレッジベースは、NVIDIAの全アクセラレータ製品を網羅しています。Ampere、Hopper、BlackwellデータセンターGPU、RTXコンシューマーおよびワークステーションカード、DGXシステム(DGX Sparkを含む)まで。各世代の運用、インストール、ネットワーキングの違いを詳細に説明し、現在はBlackwell Ultra(B300/GB300 NVL72)世代に焦点を当て、2026年半ばまでの最新情報を提供します。主な対象読者は、システム管理者、GPUサーバーエンジニア、プラットフォームエンジニア、SRE、MLOpsエンジニアです。各ページは統一された構造に従い、再利用可能なリファレンス例(Ansibleプレイブック、Helmチャート、Slurmスクリプト、PyTorchコード、vLLM設定など)を含み、アーキテクチャ図や一次論文・公式ドキュメントへのリンクも提供します。コンテンツは以下のように構成されています:GPUハードウェア、構築と検収、クラスターテクノロジー、トレーニングと後トレーニング、推論サービス、運用と最適化、レシピとランブック。「レシピとランブック」セクションでは、コピー&ペースト可能なマニフェスト、プレイブック、ステップバイステップの手順を提供し、すぐに実践できるようにしています。初めての方は、インデックスページまたはリーディングパスから始めることをお勧めします。さらに、ナレッジベースには、一般的なシナリオ向けの「レシピ」や「ランブック」(Ansibleセットアップ、Kubernetesプラットフォーム構築、テレメトリー構成、頻発するインシデントへの対処手順など)も含まれています。コンセプトページでは、各トピックの要点、落とし穴、チェックリスト、障害モードを深く解説しています。全体として、このナレッジベースは、AIインフラストラクチャエンジニアが迅速にベストプラクティスや詳細設定を参照できるように設計された、現場向けのリファレンスリソースです。