Show HN: AI基础设施知识库
一个面向系统管理员、GPU服务器工程师、平台工程师、SRE和MLOps工程师的实用、可引用的知识库,涵盖从物理数据中心和InfiniBand网络到Kubernetes、Slurm、Ray、分布式训练、强化学习后训练和大规模LLM推理服务的GPU集群部署、运维和优化。涵盖NVIDIA全系列产品(Ampere、Hopper、Blackwell数据中心GPU,RTX消费级和工作站卡,DGX系统包括DGX Spark),当前以Blackwell Ultra(B300/GB300 NVL72)为重点更新至2026年中。
AI基础设施知识库由setloop.io构建和维护,旨在为部署、运维和优化GPU集群提供实用、可引用的参考资料。其范围覆盖从物理数据中心和InfiniBand网络层,到Kubernetes、Slurm、Ray等编排平台,再到分布式训练、强化学习后训练和LLM推理服务的完整技术栈。该知识库涵盖NVIDIA全系列加速器,包括Ampere、Hopper、Blackwell数据中心GPU,RTX消费级和工作站卡,以及DGX系统(如DGX Spark)。内容详尽说明各代产品在运维、安装和网络方面的差异,并以Blackwell Ultra(B300/GB300 NVL72)为代表重点更新至2026年中。目标读者包括系统管理员、GPU服务器工程师、平台工程师、SRE和MLOps工程师。每个页面都遵循统一结构,提供可复用的参考示例(如Ansible playbook、Helm chart、Slurm脚本、PyTorch代码和vLLM配置),并附有架构图及指向原始论文和官方文档的链接。知识库的内容组织如下:GPU硬件、构建与验收、集群技术、训练与后训练、推理服务、运维与优化、以及操作手册。其中,“操作手册”部分提供了可复制的配置和步骤,便于直接应用。对于初次访问者,建议从索引页或阅读路径开始。知识库还包含面向常见场景的“食谱”和“操作手册”,如Ansible部署、Kubernetes平台搭建、遥测栈配置,以及针对频繁故障的逐步处理流程。概念页面则深入解释每个主题的要点、陷阱、检查清单和故障模式。总之,该知识库是一个为实际工作设计的参考资源,适合需要快速查阅最佳实践和详细配置的AI基础设施工程师。