超芯片架构

SuperInfer：面向LLM推理的SLO感知轮询调度与内存管理系统

Hacker News：AI 热帖 · 2026-05-31T09:37:11.615Z

该帖子介绍了一个名为SuperInfer的高性能大语言模型推理系统，专为新兴超芯片（如NVIDIA GH200）设计。它通过SLO感知的主动轮询调度器RotaSched和双工KV缓存传输引擎DuplexKV，解决了高请求率下GPU内存耗尽导致的延迟SLO违规问题。评测数据显示，该系统可将首Token延迟SLO达标率提升高达74.7%。

精选帖子

SuperInfer：面向LLM推理的SLO感知轮询调度与内存管理系统

相关作者