SuperInfer:面向LLM推理的SLO感知旋轉調度與內存管理
SuperInfer是一種針對超級芯片(如NVIDIA GH200)上LLM推理的高性能系統,通過SLO感知的旋轉調度和全雙工內存管理,顯著提高TTFT SLO達標率,同時保持相當的TBT和吞吐量。
文章情報
要點
- 創新提出RotaSched,首個主動式、SLO感知的旋轉調度器,根據延遲緊迫性旋轉請求狀態。
- DuplexKV引擎利用NVLink-C2C實現全雙工KV緩存傳輸,突破PCIe帶寬瓶頸。
- 在GH200上評估,TTFT SLO達標率提升高達74.7%,與vLLM等系統相比性能更優。
為甚麼重要
這條新聞值得關注,因為創新提出RotaSched,首個主動式、SLO感知的旋轉調度器,根據延遲緊迫性旋轉請求狀態。
技術影響
可能影響模型選型、推理成本、產品能力和評測基準。
大型語言模型(LLM)推理服務面臨嚴格的延遲服務等級協議(SLO)與有限GPU內存之間的根本矛盾。當高請求率耗盡KV緩存預算時,現有LLM推理系統常遭受嚴重的隊頭阻塞(HOL)。雖然先前工作探索了基於PCIe的卸載,但這些方法在高請求率下無法維持響應性,常常無法滿足苛刻的首次令牌時間(TTFT)和令牌間隔時間(TBT)的SLO。
為應對這些挑戰,我們提出了SuperInfer,一種專為新興超級芯片(如NVIDIA GH200)設計的高性能LLM推理系統。這些芯片通過NVLink-C2C緊密耦合GPU和CPU,提供900 GB/s的互連帶寬。SuperInfer引入兩項關鍵創新:RotaSched,第一個主動式、SLO感知的旋轉調度器,通過將請求在運行(HBM)和新的瞬態旋轉(DRAM)狀態間輪換,根據延遲緊迫性進行調度;DuplexKV,一個優化的旋轉引擎,利用NVLink-C2C實現全雙工傳輸,通過預取塊旋轉和塊優先佈局結合批量DMA傳輸,最大程度利用互連帶寬。
在GH200超級芯片上的評估使用多種模型(如LLaMA-3-8B、Qwen2.5-32B、Mixtral-8x7B)和數據集,結果表明SuperInfer將TTFT SLO達標率提升高達74.7%,同時保持與最先進系統相當的TBT和吞吐量。這證明SLO感知調度與內存協同設計能夠充分釋放超級芯片在響應式LLM服務中的潛力。