AI News HubLIVE
站内改写

SuperInfer:面向LLM推理的SLO感知旋轉排程與記憶體管理

SuperInfer是一種針對超級晶片(如NVIDIA GH200)上LLM推理的高效能系統,透過SLO感知的旋轉排程和全雙工記憶體管理,顯著提高TTFT SLO達標率,同時保持相當的TBT和吞吐量。

文章情報

工程師進階

要點

  • 創新提出RotaSched,首個主動式、SLO感知的旋轉排程器,根據延遲緊迫性旋轉請求狀態。
  • DuplexKV引擎利用NVLink-C2C實現全雙工KV快取傳輸,突破PCIe頻寬瓶頸。
  • 在GH200上評估,TTFT SLO達標率提升高達74.7%,與vLLM等系統相比效能更優。

為什麼重要

這條新聞值得關注,因為創新提出RotaSched,首個主動式、SLO感知的旋轉排程器,根據延遲緊迫性旋轉請求狀態。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

大型語言模型(LLM)推理服務面臨嚴格的延遲服務等級協議(SLO)與有限GPU記憶體之間的根本矛盾。當高請求率耗盡KV快取預算時,現有LLM推理系統常遭受嚴重的隊頭阻塞(HOL)。雖然先前工作探索了基於PCIe的解除安裝,但這些方法在高請求率下無法維持響應性,常常無法滿足苛刻的首次令牌時間(TTFT)和令牌間隔時間(TBT)的SLO。

為應對這些挑戰,我們提出了SuperInfer,一種專為新興超級晶片(如NVIDIA GH200)設計的高效能LLM推理系統。這些晶片透過NVLink-C2C緊密耦合GPU和CPU,提供900 GB/s的互連頻寬。SuperInfer引入兩項關鍵創新:RotaSched,第一個主動式、SLO感知的旋轉排程器,透過將請求在執行(HBM)和新的瞬態旋轉(DRAM)狀態間輪換,根據延遲緊迫性進行排程;DuplexKV,一個最佳化的旋轉引擎,利用NVLink-C2C實現全雙工傳輸,透過預取塊旋轉和塊優先佈局結合批次DMA傳輸,最大程度利用互連頻寬。

在GH200超級晶片上的評估使用多種模型(如LLaMA-3-8B、Qwen2.5-32B、Mixtral-8x7B)和資料集,結果表明SuperInfer將TTFT SLO達標率提升高達74.7%,同時保持與最先進系統相當的TBT和吞吐量。這證明SLO感知排程與記憶體協同設計能夠充分釋放超級晶片在響應式LLM服務中的潛力。