Show HN: AI基礎設施知識庫
一個面向系統管理員、GPU服務器工程師、平台工程師、SRE和MLOps工程師的實用、可引用的知識庫,涵蓋從物理數據中心和InfiniBand網絡到Kubernetes、Slurm、Ray、分佈式訓練、強化學習後訓練和大規模LLM推理服務的GPU集羣部署、運維和優化。涵蓋NVIDIA全系列產品(Ampere、Hopper、Blackwell數據中心GPU,RTX消費級和工作站卡,DGX系統包括DGX Spark),當前以Blackwell Ultra(B300/GB300 NVL72)為重點更新至2026年中。
AI基礎設施知識庫由setloop.io構建和維護,旨在為部署、運維和優化GPU集羣提供實用、可引用的參考資料。其範圍覆蓋從物理數據中心和InfiniBand網絡層,到Kubernetes、Slurm、Ray等編排平台,再到分佈式訓練、強化學習後訓練和LLM推理服務的完整技術棧。該知識庫涵蓋NVIDIA全系列加速器,包括Ampere、Hopper、Blackwell數據中心GPU,RTX消費級和工作站卡,以及DGX系統(如DGX Spark)。內容詳盡説明各代產品在運維、安裝和網絡方面的差異,並以Blackwell Ultra(B300/GB300 NVL72)為代表重點更新至2026年中。目標讀者包括系統管理員、GPU服務器工程師、平台工程師、SRE和MLOps工程師。每個頁面都遵循統一結構,提供可複用的參考示例(如Ansible playbook、Helm chart、Slurm腳本、PyTorch代碼和vLLM配置),並附有架構圖及指向原始論文和官方文檔的鏈接。知識庫的內容組織如下:GPU硬件、構建與驗收、集羣技術、訓練與後訓練、推理服務、運維與優化、以及操作手冊。其中,“操作手冊”部分提供了可複製的配置和步驟,便於直接應用。對於初次訪問者,建議從索引頁或閲讀路徑開始。知識庫還包含面向常見場景的“食譜”和“操作手冊”,如Ansible部署、Kubernetes平台搭建、遙測棧配置,以及針對頻繁故障的逐步處理流程。概念頁面則深入解釋每個主題的要點、陷阱、檢查清單和故障模式。總之,該知識庫是一個為實際工作設計的參考資源,適合需要快速查閲最佳實踐和詳細配置的AI基礎設施工程師。