2026-05-19 09:23 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

SuperInfer：面向LLM推理的SLO感知旋轉排程與記憶體管理

SuperInfer是一種針對超級晶片（如NVIDIA GH200）上LLM推理的高效能系統，透過SLO感知的旋轉排程和全雙工記憶體管理，顯著提高TTFT SLO達標率，同時保持相當的TBT和吞吐量。

大型語言模型（LLM）推理服務面臨嚴格的延遲服務等級協議（SLO）與有限GPU記憶體之間的根本矛盾。當高請求率耗盡KV快取預算時，現有LLM推理系統常遭受嚴重的隊頭阻塞（HOL）。雖然先前工作探索了基於PCIe的解除安裝，但這些方法在高請求率下無法維持響應性，常常無法滿足苛刻的首次令牌時間（TTFT）和令牌間隔時間（TBT）的SLO。

為應對這些挑戰，我們提出了SuperInfer，一種專為新興超級晶片（如NVIDIA GH200）設計的高效能LLM推理系統。這些晶片透過NVLink-C2C緊密耦合GPU和CPU，提供900 GB/s的互連頻寬。SuperInfer引入兩項關鍵創新：RotaSched，第一個主動式、SLO感知的旋轉排程器，透過將請求在執行（HBM）和新的瞬態旋轉（DRAM）狀態間輪換，根據延遲緊迫性進行排程；DuplexKV，一個最佳化的旋轉引擎，利用NVLink-C2C實現全雙工傳輸，透過預取塊旋轉和塊優先佈局結合批次DMA傳輸，最大程度利用互連頻寬。

在GH200超級晶片上的評估使用多種模型（如LLaMA-3-8B、Qwen2.5-32B、Mixtral-8x7B）和資料集，結果表明SuperInfer將TTFT SLO達標率提升高達74.7%，同時保持與最先進系統相當的TBT和吞吐量。這證明SLO感知排程與記憶體協同設計能夠充分釋放超級晶片在響應式LLM服務中的潛力。