SuperInfer:面向LLM推理的SLO感知旋转调度与内存管理
SuperInfer是一种针对超级芯片(如NVIDIA GH200)上LLM推理的高性能系统,通过SLO感知的旋转调度和全双工内存管理,显著提高TTFT SLO达标率,同时保持相当的TBT和吞吐量。
文章情报
要点
- 创新提出RotaSched,首个主动式、SLO感知的旋转调度器,根据延迟紧迫性旋转请求状态。
- DuplexKV引擎利用NVLink-C2C实现全双工KV缓存传输,突破PCIe带宽瓶颈。
- 在GH200上评估,TTFT SLO达标率提升高达74.7%,与vLLM等系统相比性能更优。
为什么重要
这条新闻值得关注,因为创新提出RotaSched,首个主动式、SLO感知的旋转调度器,根据延迟紧迫性旋转请求状态。
技术影响
可能影响模型选型、推理成本、产品能力和评测基准。
大型语言模型(LLM)推理服务面临严格的延迟服务等级协议(SLO)与有限GPU内存之间的根本矛盾。当高请求率耗尽KV缓存预算时,现有LLM推理系统常遭受严重的队头阻塞(HOL)。虽然先前工作探索了基于PCIe的卸载,但这些方法在高请求率下无法维持响应性,常常无法满足苛刻的首次令牌时间(TTFT)和令牌间隔时间(TBT)的SLO。
为应对这些挑战,我们提出了SuperInfer,一种专为新兴超级芯片(如NVIDIA GH200)设计的高性能LLM推理系统。这些芯片通过NVLink-C2C紧密耦合GPU和CPU,提供900 GB/s的互连带宽。SuperInfer引入两项关键创新:RotaSched,第一个主动式、SLO感知的旋转调度器,通过将请求在运行(HBM)和新的瞬态旋转(DRAM)状态间轮换,根据延迟紧迫性进行调度;DuplexKV,一个优化的旋转引擎,利用NVLink-C2C实现全双工传输,通过预取块旋转和块优先布局结合批量DMA传输,最大程度利用互连带宽。
在GH200超级芯片上的评估使用多种模型(如LLaMA-3-8B、Qwen2.5-32B、Mixtral-8x7B)和数据集,结果表明SuperInfer将TTFT SLO达标率提升高达74.7%,同时保持与最先进系统相当的TBT和吞吐量。这证明SLO感知调度与内存协同设计能够充分释放超级芯片在响应式LLM服务中的潜力。