AI News HubLIVE
站内改写

MinIO 為 Nvidia GPU 推理推出 PB 級 MemKV 緩存

MinIO 發佈了 PB 級 MemKV 緩存系統,專為 Nvidia GPU 推理設計,基於 AIStor 對象存儲。該系統兼容 Nvidia STX 架構,通過端到端 RDMA 傳輸實現微秒級延遲,將 GPU 利用率從 50% 提升至 90% 以上,每年可節省 200 萬美元計算成本。

文章情報

工程師進階

要點

  • MemKV 在 GPU HBM、CPU DRAM 和本地 SSD 之上提供 PB 級共享上下文緩存,通過 BlueField-4 DPU 實現。
  • 該系統改善首個令牌生成時間,在 128 個 GPU 部署中顯著提升性能。
  • MinIO 強調 MemKV 是專為推理數據路徑構建的 G3.5 層,區別於傳統存儲方案。

為甚麼重要

這條新聞值得關注,因為MemKV 在 GPU HBM、CPU DRAM 和本地 SSD 之上提供 PB 級共享上下文緩存,通過 BlueField-4 DPU 實現。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

MinIO 近日發佈了名為 MemKV 的 PB 級緩存系統,專為 Nvidia GPU 推理工作負載優化。該系統構建於 MinIO 的 AIStor 對象存儲之上,旨在解決大規模 GPU 集羣中上下文丟失和計算效率低下的問題。

在 AI 推理過程中,GPU 需要高速內存(HBM)來存儲上下文信息,包括向量化的 token 和關鍵的鍵值對(KV 對)。當 HBM 容量不足時,數據會逐級緩存到 CPU DRAM、NVMe SSD(通過 Nvidia BlueField-4 DPU 控制),最終落到對象存儲系統中。MemKV 正是為了優化這一層級結構而設計,它遵循 Nvidia 的 STX 架構,提供持久化、共享的上下文存儲,且延遲僅為微秒級。

MinIO 聯合創始人兼聯合 CEO AB Periasamy 表示:“行業多年來一直在掩飾上下文丟失的問題,因為在小規模下,重新計算的代價尚可承受。但隨着 GPU 密度達到超大規模雲和新型雲服務商所構建的水平,情況已截然不同。GPU 重新計算已有上下文無異於白白消耗電力,在千卡集羣中,這不僅是效率低下,更是結構性拖累。規模化的收益經濟學要求為推理數據路徑量身定製解決方案。MemKV 正是為此而生。”

MinIO 聲稱,MemKV 實現了首個讓整個 GPU 集羣以微秒級延遲訪問共享上下文池的方案,避免了等待毫秒級外部存儲的延遲。在 128 個 GPU 的部署測試中,採用 128K token 上下文長度,MemKV 將 GPU 利用率從 50% 提升至 90% 以上,每年節省約 200 萬美元的計算成本。

MemKV 的核心特性包括:原生支持 BlueField-4 STX,以單一 ARM64 原生二進制形式運行在存儲層;端到端 RDMA 傳輸,數據從 GPU 內存直接移動到 NVMe,繞過文件系統和對象存儲協議;採用 2-16 MB 的 GPU 原生塊大小,針對吞吐優化的 GPU 訪問模式;以及為 Nvidia Spectrum-X 以太網和 PCIe Gen6 優化的線速性能。

MinIO 強調,其他存儲廠商在宣佈支持上下文內存時,要麼擴展本地 NVMe 方案(G3),卻無法跨集羣共享;要麼改造通用共享存儲平台(G4),但這些平台本非為推理設計。MemKV 則作為 G3.5 層從頭構建。MinIO 指出,傳統存儲廠商宣稱的 G3.5 支持,數據仍需經過相同的協議節點、元數據服務和文件系統轉換層,這些層對於訓練數據和模型權重是必要的,但對於 KV 緩存這種臨時性、可重新計算的數據,以及 2-16 MB 的推理優化塊,卻非理想選擇。

目前,GPU 供電的硬件 RAID 供應商 GRAID 和 WEKA 也提供了支持 STX 的 KV 緩存方案。此外,包括 Cloudian、Dell、DDN、Everpure、Hammerspace、Hitachi Vantara、HPE、Lightbits/ScaleFlux、NetApp、Nutanix、Peak:AIO、Pliops 和 VAST Data 在內的多家存儲供應商已宣佈支持 Nvidia 的 STX 架構。