AI News HubLIVE
站内改写2 分钟阅读

利用 Amazon FSx for Lustre 上的 GPUDirect 和 TurboQuant 加速 LLM 模型加载并扩大上下文窗口

本文探讨了如何通过结合 Amazon FSx for Lustre、NVIDIA GPUDirect Storage (GDS) 和预分片并行加载,将大型语言模型 (LLM) 的冷启动首次令牌时间从分钟级缩短到秒级,并介绍了 TurboQuant KV 缓存对扩大上下文窗口的影响。

来源AWS Machine Learning Blog作者: Randy Seamans

在 AWS GPU 实例上迭代部署大型语言模型 (LLM) 时,模型加载到 GPU 高带宽内存 (HBM) 的时间会随着模型规模的增大而显著增加,导致冷启动首次令牌时间 (TTFT) 过长。本文介绍了如何通过 Amazon FSx for Lustre 与 NVIDIA GPUDirect Storage (GDS) 的结合,加上巧妙的规划,从根本改变冷启动 TTFT 的计算方式,将模型加载时间从分钟缩短到秒。同时,还介绍了新发布的 TurboQuant KV 缓存对增加上下文窗口的巨大作用。

背景:AWS 上的 NVIDIA Blackwell 架构 AWS 近期推出了基于 NVIDIA Blackwell 架构的 Amazon EC2 P6e 和 P6 实例系列。旗舰级 P6e UltraServer 将 72 个 NVIDIA Blackwell GPU 集成到一个 NVLink 域中,提供 130 TB/s 的双向带宽、13.4 TB 的 HBM3e 和 360 petaflops 的 FP8 计算能力。这些 UltraServer 通常用于万亿参数级前沿模型的大规模分布式训练。本文则聚焦于优化单个 P6 或 P5en 实例的冷启动 TTFT。

模型加载瓶颈 传统 CPU 模型加载将检查点流经 CPU 内存,并依次通过 PCIe 将权重复制到每个 GPU。而分片 GDS 加载则预分检查点,所有 GPU 直接通过 EFA 从 FSx for Lustre 并行读取分片到 HBM,完全绕过 CPU。对于 Llama 3.1 405B 模型(约 800 GB BF16 检查点),传统加载需要 10–20 分钟,而 GDS 几乎可以消除这一瓶颈。长时间加载不仅影响冷启动延迟,还影响自动扩缩响应速度、故障恢复以及成本效率。

直接路径:FSx for Lustre 与 GPUDirect Storage Amazon FSx for Lustre 是一种高性能并行文件系统,与 NVIDIA GDS 结合时,可以建立多条直达 GPU 内存的数据路径。此集成依赖两个关键技术:Amazon Elastic Fabric Adapter (EFA) 和 NVIDIA GPUDirect Storage。EFA 使用 SRD 协议绕过操作系统开销,P5en 实例具有 16 个 200 Gbps 的 EFA 接口,总聚合网络带宽达 3,200 Gbps。GDS 允许 DMA 直接从网络接口传输到 GPU HBM。测试中使用了 Persistent_2 EFA 文件系统,每 TiB 提供 1000 MBps 吞吐量,20 个 OST 可提供约 94 GiB/s 的文件系统吞吐量。

分片并行加载 以 P5en 实例(8 个 H200 GPU,每个 141 GB HBM3e)为例,对于 Llama 3.1 405B 模型(FP8 时约 400 GB),权重无法装入单个 GPU,需要张量并行。方法分为四个阶段:

  • 阶段 0:配置基础设施:在同一个 VPC 和可用区中准备启用 EFA 的 FSx for Lustre 文件系统和配置了 GDS 的 GPU 实例。使用 AWS CloudFormation 模板和设置脚本可自动完成。
  • 阶段 1:预分片和预量化:离线使用 vLLM 将模型分割为 8 个张量并行分片并量化为 FP8,保存到 FSx for Lustre。检查点大小从 ~800 GB 降至 ~400 GB。此步骤仅在模型更新时需要重复。
  • 阶段 2:GDS 并行加载:启动推理服务器时,每个 GPU 通过 GDS 直接从 FSx for Lustre 读取自己的分片,并行加载权重到 HBM。
  • 阶段 3:推理:模型就绪后立即开始服务推理请求。

TurboQuant KV 缓存:TurboQuant 是一种量化技术,以 4 位甚至 2 位精度存储 KV 缓存,在不影响质量的情况下将每个令牌的 KV 缓存内存占用减少 4–8 倍,从而支持更长的上下文窗口。

通过结合这些技术,用户可以在 AWS 上实现接近即时的大型模型冷启动,并支持更长的上下文。