2026-05-12站内改写

MinIO 為 Nvidia GPU 推理推出 PB 級 MemKV 快取

MinIO 釋出了 PB 級 MemKV 快取系統，專為 Nvidia GPU 推理設計，基於 AIStor 物件儲存。該系統相容 Nvidia STX 架構，透過端到端 RDMA 傳輸實現微秒級延遲，將 GPU 利用率從 50% 提升至 90% 以上，每年可節省 200 萬美元計算成本。

文章情報

工程師進階

要點

MemKV 在 GPU HBM、CPU DRAM 和本地 SSD 之上提供 PB 級共享上下文快取，透過 BlueField-4 DPU 實現。
該系統改善首個令牌生成時間，在 128 個 GPU 部署中顯著提升效能。
MinIO 強調 MemKV 是專為推理資料路徑構建的 G3.5 層，區別於傳統儲存方案。

為什麼重要

這條新聞值得關注，因為MemKV 在 GPU HBM、CPU DRAM 和本地 SSD 之上提供 PB 級共享上下文快取，透過 BlueField-4 DPU 實現。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

MinIO 近日釋出了名為 MemKV 的 PB 級快取系統，專為 Nvidia GPU 推理工作負載最佳化。該系統構建於 MinIO 的 AIStor 物件儲存之上，旨在解決大規模 GPU 叢集中上下文丟失和計算效率低下的問題。

在 AI 推理過程中，GPU 需要高速記憶體（HBM）來儲存上下文資訊，包括向量化的 token 和關鍵的鍵值對（KV 對）。當 HBM 容量不足時，資料會逐級快取到 CPU DRAM、NVMe SSD（透過 Nvidia BlueField-4 DPU 控制），最終落到物件儲存系統中。MemKV 正是為了最佳化這一層級結構而設計，它遵循 Nvidia 的 STX 架構，提供持久化、共享的上下文儲存，且延遲僅為微秒級。

MinIO 聯合創始人兼聯合 CEO AB Periasamy 表示：“行業多年來一直在掩飾上下文丟失的問題，因為在小規模下，重新計算的代價尚可承受。但隨著 GPU 密度達到超大規模雲和新型雲服務商所構建的水平，情況已截然不同。GPU 重新計算已有上下文無異於白白消耗電力，在千卡叢集中，這不僅是效率低下，更是結構性拖累。規模化的收益經濟學要求為推理資料路徑量身定製解決方案。MemKV 正是為此而生。”

MinIO 聲稱，MemKV 實現了首個讓整個 GPU 叢集以微秒級延遲訪問共享上下文池的方案，避免了等待毫秒級外部儲存的延遲。在 128 個 GPU 的部署測試中，採用 128K token 上下文長度，MemKV 將 GPU 利用率從 50% 提升至 90% 以上，每年節省約 200 萬美元的計算成本。

MemKV 的核心特性包括：原生支援 BlueField-4 STX，以單一 ARM64 原生二進位制形式執行在儲存層；端到端 RDMA 傳輸，資料從 GPU 記憶體直接移動到 NVMe，繞過檔案系統和物件儲存協議；採用 2-16 MB 的 GPU 原生塊大小，針對吞吐最佳化的 GPU 訪問模式；以及為 Nvidia Spectrum-X 乙太網和 PCIe Gen6 最佳化的線速效能。

MinIO 強調，其他儲存廠商在宣佈支援上下文記憶體時，要麼擴充套件本地 NVMe 方案（G3），卻無法跨叢集共享；要麼改造通用共享儲存平臺（G4），但這些平臺本非為推理設計。MemKV 則作為 G3.5 層從頭構建。MinIO 指出，傳統儲存廠商宣稱的 G3.5 支援，資料仍需經過相同的協議節點、後設資料服務和檔案系統轉換層，這些層對於訓練資料和模型權重是必要的，但對於 KV 快取這種臨時性、可重新計算的資料，以及 2-16 MB 的推理最佳化塊，卻非理想選擇。

目前，GPU 供電的硬體 RAID 供應商 GRAID 和 WEKA 也提供了支援 STX 的 KV 快取方案。此外，包括 Cloudian、Dell、DDN、Everpure、Hammerspace、Hitachi Vantara、HPE、Lightbits/ScaleFlux、NetApp、Nutanix、Peak:AIO、Pliops 和 VAST Data 在內的多家儲存供應商已宣佈支援 Nvidia 的 STX 架構。