**在AMD GPU上使用PD分解部署推理端点**

_Deploying inference endpoints with PD disaggregation on AMD GPUs_

> 本文介绍了如何使用开源AI编排工具dstack和Shepherd Model Gateway(SMG),在AMD GPU上部署具有预填充-解码(PD)分解的LLM推理端点。PD分解将预填充(计算密集型)和解码(内存密集型)阶段分离为独立池,可独立扩展以优化延迟,但需要高带宽、低延迟的RDMA网络进行KV缓存转移。文章提供了在AMD MI300X GPU集群上部署Qwen2.5-72B模型的完整配置示例。

**来源信息**
- **来源**:Hacker News:AI 热帖
- **分类**:ai-models
- **发布时间**:2026-05-21 22:41(北京时间)
- **原文**:[打开原文](https://dstack.ai/blog/amd-pd-disaggregation)