2026-05-19 09:23 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

SuperInfer：面向LLM推理的SLO感知旋轉調度與內存管理

SuperInfer是一種針對超級芯片（如NVIDIA GH200）上LLM推理的高性能系統，通過SLO感知的旋轉調度和全雙工內存管理，顯著提高TTFT SLO達標率，同時保持相當的TBT和吞吐量。

大型語言模型（LLM）推理服務面臨嚴格的延遲服務等級協議（SLO）與有限GPU內存之間的根本矛盾。當高請求率耗盡KV緩存預算時，現有LLM推理系統常遭受嚴重的隊頭阻塞（HOL）。雖然先前工作探索了基於PCIe的卸載，但這些方法在高請求率下無法維持響應性，常常無法滿足苛刻的首次令牌時間（TTFT）和令牌間隔時間（TBT）的SLO。

為應對這些挑戰，我們提出了SuperInfer，一種專為新興超級芯片（如NVIDIA GH200）設計的高性能LLM推理系統。這些芯片通過NVLink-C2C緊密耦合GPU和CPU，提供900 GB/s的互連帶寬。SuperInfer引入兩項關鍵創新：RotaSched，第一個主動式、SLO感知的旋轉調度器，通過將請求在運行（HBM）和新的瞬態旋轉（DRAM）狀態間輪換，根據延遲緊迫性進行調度；DuplexKV，一個優化的旋轉引擎，利用NVLink-C2C實現全雙工傳輸，通過預取塊旋轉和塊優先佈局結合批量DMA傳輸，最大程度利用互連帶寬。

在GH200超級芯片上的評估使用多種模型（如LLaMA-3-8B、Qwen2.5-32B、Mixtral-8x7B）和數據集，結果表明SuperInfer將TTFT SLO達標率提升高達74.7%，同時保持與最先進系統相當的TBT和吞吐量。這證明SLO感知調度與內存協同設計能夠充分釋放超級芯片在響應式LLM服務中的潛力。