2026-05-19 09:23 UTC+8站内改写1 分钟阅读更新: 2026-06-30 21:03 UTC+8

SuperInfer：面向LLM推理的SLO感知旋转调度与内存管理

SuperInfer是一种针对超级芯片（如NVIDIA GH200）上LLM推理的高性能系统，通过SLO感知的旋转调度和全双工内存管理，显著提高TTFT SLO达标率，同时保持相当的TBT和吞吐量。

大型语言模型（LLM）推理服务面临严格的延迟服务等级协议（SLO）与有限GPU内存之间的根本矛盾。当高请求率耗尽KV缓存预算时，现有LLM推理系统常遭受严重的队头阻塞（HOL）。虽然先前工作探索了基于PCIe的卸载，但这些方法在高请求率下无法维持响应性，常常无法满足苛刻的首次令牌时间（TTFT）和令牌间隔时间（TBT）的SLO。

为应对这些挑战，我们提出了SuperInfer，一种专为新兴超级芯片（如NVIDIA GH200）设计的高性能LLM推理系统。这些芯片通过NVLink-C2C紧密耦合GPU和CPU，提供900 GB/s的互连带宽。SuperInfer引入两项关键创新：RotaSched，第一个主动式、SLO感知的旋转调度器，通过将请求在运行（HBM）和新的瞬态旋转（DRAM）状态间轮换，根据延迟紧迫性进行调度；DuplexKV，一个优化的旋转引擎，利用NVLink-C2C实现全双工传输，通过预取块旋转和块优先布局结合批量DMA传输，最大程度利用互连带宽。

在GH200超级芯片上的评估使用多种模型（如LLaMA-3-8B、Qwen2.5-32B、Mixtral-8x7B）和数据集，结果表明SuperInfer将TTFT SLO达标率提升高达74.7%，同时保持与最先进系统相当的TBT和吞吐量。这证明SLO感知调度与内存协同设计能够充分释放超级芯片在响应式LLM服务中的潜力。