SuperInfer：面向LLM推理的SLO感知轮询调度与内存管理系统

原帖

**SuperInfer：面向大语言模型推理的SLO感知轮询调度与内存管理**

_SuperInfer: SLO-Aware Rotary Scheduling and Memory Management for LLM Inference_

> SuperInfer 是一个为新兴超芯片（如NVIDIA GH200）设计的高性能大语言模型推理系统。它通过引入SLO感知的主动轮询调度器RotaSched和优化的双工KV缓存传输引擎DuplexKV，有效解决了高请求率下GPU内存耗尽导致的延迟SLO违规问题。评测显示，该系统可将首Token延迟SLO达标率提升高达74.7%，同时保持可比的Token间延迟和吞吐量，为响应式LLM服务释放了超芯片的潜力。

**来源信息**
- **来源**：Hacker News：AI 热帖
- **分类**：论文
- **发布时间**：2026-05-19 09:23（北京时间）
- **原文**：[打开原文](https://supercomputing-system-ai-lab.github.io/projects/superinfer)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

该帖子介绍了一个名为SuperInfer的高性能大语言模型推理系统，专为新兴超芯片（如NVIDIA GH200）设计。它通过SLO感知的主动轮询调度器RotaSched和双工KV缓存传输引擎DuplexKV，解决了高请求率下GPU内存耗尽导致的延迟SLO违规问题。评测数据显示，该系统可将首Token延迟SLO达标率提升高达74.7%。

答案说明

SuperInfer是一个为超芯片设计的LLM推理系统，通过SLO感知的轮询调度和内存管理技术，有效提升高负载下的服务响应达标率，据评测其首Token延迟SLO达标率可提升高达74.7%。

这篇帖子回答的问题

SuperInfer系统如何解决大语言模型推理中的SLO违规问题？
SuperInfer系统在评测中的性能提升表现如何？

核心观点

SuperInfer系统通过其核心组件RotaSched和DuplexKV，旨在解决大语言模型在超芯片上推理时因GPU内存耗尽导致的延迟SLO违规问题。
根据帖子引用的评测，SuperInfer系统能够显著提升首Token延迟的SLO达标率，据称提升幅度高达74.7%。

FAQ

Q: SuperInfer系统的核心设计目标是什么？: A: 为新兴超芯片设计高性能LLM推理系统，解决高请求率下的延迟SLO违规问题。
Q: 帖子中提到的评测结果如何？: A: 评测显示，该系统可将首Token延迟SLO达标率提升高达74.7%，同时保持可比的Token间延迟和吞吐量。

关键实体

SuperInfer
RotaSched
DuplexKV
NVIDIA GH200

原帖

AI 可引用内容层

摘要

答案说明

这篇帖子回答的问题

核心观点

FAQ

关键实体

相关主题