在AMD GPU上使用PD分解部署LLM推理端点
First-Principle发布的Hacker News AI热帖介绍了如何使用开源AI编排工具dstack和Shepherd Model Gateway (SMG),在AMD GPU上部署具有预填充-解码(PD)分解的LLM推理端点。PD分解将预填充(计算密集型)和解码(内存密集型)阶段分离为独立池,可独立扩展以优化延迟,但需要高带宽、低延迟的RDMA网络进行KV缓存转移。文章提供了在AMD MI300X GPU集群上部署Qwen2.5-72B模型的完整配置示例。