无冲突的容量:面向AI原生团队的多租户GPU集群设计指南
多租户GPU集群让AI原生公司能够跨团队共享计算容量,同时不牺牲隔离性或控制力。本文涵盖核心设计原则、常见故障模式,以及Together AI如何在实际中实现多租户。
在AI原生公司中,随着团队数量的增长,对GPU计算的需求急剧上升。然而,简单地为每个团队分配独立集群会导致资源闲置和浪费。多租户GPU集群设计应运而生,它允许多个团队共享同一套底层硬件,同时保持必要的隔离性。
一个成功的多租户集群需要同时满足三个核心要求:池化容量、租户隔离和自服务访问。池化容量意味着将GPU资源集中管理,消除空闲浪费;租户隔离确保每个团队拥有专用的节点、存储和凭证;自服务访问让团队能够直接预订容量并快速启动环境。
基础设施采用两层架构:底层是共享的控制平面、高性能存储和网络(如InfiniBand和以太网),上层是为每个租户创建的隔离虚拟环境,包含专用GPU节点、存储卷以及可选择的编排层(Kubernetes或Slurm)。这种设计既实现了经济学上的规模效应,又提供了类似专属集群的体验。
为了防止单个团队占用过多资源,系统必须实施基于配额的分配机制。管理员可以为每个团队设置GPU数量、总花费或预留窗口上限,并由调度器强制执行。当团队需要超出配额时,系统应自动支持以按需费率爆发,无需人工审批。
此外,多租户平台应提供灵活的配置选项,允许团队在预订时指定编排层、CUDA驱动版本、共享内存大小等,避免强加统一默认值。硬件健康方面,自动验收测试和按需健康检查至关重要,确保节点故障不会影响其他租户。Together AI的实践表明,通过精心设计的多租户架构,AI原生公司可以在不牺牲性能的前提下实现数据中心级的单位经济学和自服务速度。
多租户集群在具有异构工作负载(如基础模型训练、微调、推理和研究)的多个AI团队同时运行时最具价值。对于AI原生组织来说,数学上强烈支持资源池化。关键问题不在于是否共享基础设施,而在于你的AI平台如何有效地强制执行隔离。当流程无缝运行时,你将获得数据中心级的单位经济学,而无需公共云的性能妥协,以及AI原生团队所期望的自服务速度。
Together AI的多租户集群专为需要共享GPU基础设施而不想有共享烦恼的AI原生组织而构建。池化你的容量,隔离你的团队,以你的模型要求的速度前进。