**SuperInfer:面向大语言模型推理的SLO感知轮询调度与内存管理**

_SuperInfer: SLO-Aware Rotary Scheduling and Memory Management for LLM Inference_

> SuperInfer 是一个为新兴超芯片(如NVIDIA GH200)设计的高性能大语言模型推理系统。它通过引入SLO感知的主动轮询调度器RotaSched和优化的双工KV缓存传输引擎DuplexKV,有效解决了高请求率下GPU内存耗尽导致的延迟SLO违规问题。评测显示,该系统可将首Token延迟SLO达标率提升高达74.7%,同时保持可比的Token间延迟和吞吐量,为响应式LLM服务释放了超芯片的潜力。

**来源信息**
- **来源**:Hacker News:AI 热帖
- **分类**:论文
- **发布时间**:2026-05-19 09:23(北京时间)
- **原文**:[打开原文](https://supercomputing-system-ai-lab.github.io/projects/superinfer)