AI News HubLIVE
站内改写

MinIO 为 Nvidia GPU 推理推出 PB 级 MemKV 缓存

MinIO 发布了 PB 级 MemKV 缓存系统,专为 Nvidia GPU 推理设计,基于 AIStor 对象存储。该系统兼容 Nvidia STX 架构,通过端到端 RDMA 传输实现微秒级延迟,将 GPU 利用率从 50% 提升至 90% 以上,每年可节省 200 万美元计算成本。

文章情报

工程师进阶

要点

  • MemKV 在 GPU HBM、CPU DRAM 和本地 SSD 之上提供 PB 级共享上下文缓存,通过 BlueField-4 DPU 实现。
  • 该系统改善首个令牌生成时间,在 128 个 GPU 部署中显著提升性能。
  • MinIO 强调 MemKV 是专为推理数据路径构建的 G3.5 层,区别于传统存储方案。

为什么重要

这条新闻值得关注,因为MemKV 在 GPU HBM、CPU DRAM 和本地 SSD 之上提供 PB 级共享上下文缓存,通过 BlueField-4 DPU 实现。

技术影响

可能影响模型选型、推理成本、产品能力和评测基准。

MinIO 近日发布了名为 MemKV 的 PB 级缓存系统,专为 Nvidia GPU 推理工作负载优化。该系统构建于 MinIO 的 AIStor 对象存储之上,旨在解决大规模 GPU 集群中上下文丢失和计算效率低下的问题。

在 AI 推理过程中,GPU 需要高速内存(HBM)来存储上下文信息,包括向量化的 token 和关键的键值对(KV 对)。当 HBM 容量不足时,数据会逐级缓存到 CPU DRAM、NVMe SSD(通过 Nvidia BlueField-4 DPU 控制),最终落到对象存储系统中。MemKV 正是为了优化这一层级结构而设计,它遵循 Nvidia 的 STX 架构,提供持久化、共享的上下文存储,且延迟仅为微秒级。

MinIO 联合创始人兼联合 CEO AB Periasamy 表示:“行业多年来一直在掩饰上下文丢失的问题,因为在小规模下,重新计算的代价尚可承受。但随着 GPU 密度达到超大规模云和新型云服务商所构建的水平,情况已截然不同。GPU 重新计算已有上下文无异于白白消耗电力,在千卡集群中,这不仅是效率低下,更是结构性拖累。规模化的收益经济学要求为推理数据路径量身定制解决方案。MemKV 正是为此而生。”

MinIO 声称,MemKV 实现了首个让整个 GPU 集群以微秒级延迟访问共享上下文池的方案,避免了等待毫秒级外部存储的延迟。在 128 个 GPU 的部署测试中,采用 128K token 上下文长度,MemKV 将 GPU 利用率从 50% 提升至 90% 以上,每年节省约 200 万美元的计算成本。

MemKV 的核心特性包括:原生支持 BlueField-4 STX,以单一 ARM64 原生二进制形式运行在存储层;端到端 RDMA 传输,数据从 GPU 内存直接移动到 NVMe,绕过文件系统和对象存储协议;采用 2-16 MB 的 GPU 原生块大小,针对吞吐优化的 GPU 访问模式;以及为 Nvidia Spectrum-X 以太网和 PCIe Gen6 优化的线速性能。

MinIO 强调,其他存储厂商在宣布支持上下文内存时,要么扩展本地 NVMe 方案(G3),却无法跨集群共享;要么改造通用共享存储平台(G4),但这些平台本非为推理设计。MemKV 则作为 G3.5 层从头构建。MinIO 指出,传统存储厂商宣称的 G3.5 支持,数据仍需经过相同的协议节点、元数据服务和文件系统转换层,这些层对于训练数据和模型权重是必要的,但对于 KV 缓存这种临时性、可重新计算的数据,以及 2-16 MB 的推理优化块,却非理想选择。

目前,GPU 供电的硬件 RAID 供应商 GRAID 和 WEKA 也提供了支持 STX 的 KV 缓存方案。此外,包括 Cloudian、Dell、DDN、Everpure、Hammerspace、Hitachi Vantara、HPE、Lightbits/ScaleFlux、NetApp、Nutanix、Peak:AIO、Pliops 和 VAST Data 在内的多家存储供应商已宣布支持 Nvidia 的 STX 架构。