在AMD GPU上使用PD分解部署LLM推理端点

原帖

**在AMD GPU上使用PD分解部署推理端点**

_Deploying inference endpoints with PD disaggregation on AMD GPUs_

> 本文介绍了如何使用开源AI编排工具dstack和Shepherd Model Gateway（SMG），在AMD GPU上部署具有预填充-解码（PD）分解的LLM推理端点。PD分解将预填充（计算密集型）和解码（内存密集型）阶段分离为独立池，可独立扩展以优化延迟，但需要高带宽、低延迟的RDMA网络进行KV缓存转移。文章提供了在AMD MI300X GPU集群上部署Qwen2.5-72B模型的完整配置示例。

**来源信息**
- **来源**：Hacker News：AI 热帖
- **分类**：ai-models
- **发布时间**：2026-05-21 22:41（北京时间）
- **原文**：[打开原文](https://dstack.ai/blog/amd-pd-disaggregation)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

First-Principle发布的Hacker News AI热帖介绍了如何使用开源AI编排工具dstack和Shepherd Model Gateway (SMG)，在AMD GPU上部署具有预填充-解码（PD）分解的LLM推理端点。PD分解将预填充（计算密集型）和解码（内存密集型）阶段分离为独立池，可独立扩展以优化延迟，但需要高带宽、低延迟的RDMA网络进行KV缓存转移。文章提供了在AMD MI300X GPU集群上部署Qwen2.5-72B模型的完整配置示例。

答案说明

要部署PD分解的LLM推理端点，可以使用dstack和SMG在AMD MI300X GPU集群上进行配置。PD分解通过分离预填充和解码阶段来优化延迟，但需要RDMA网络支持KV缓存转移。

这篇帖子回答的问题

如何在AMD GPU上使用PD分解部署LLM推理端点？
PD分解在LLM推理中有什么作用？

核心观点

PD分解通过分离预填充和解码阶段来优化LLM推理延迟，并允许独立扩展。
在AMD MI300X GPU集群上部署PD分解的LLM推理端点需要高带宽、低延迟的RDMA网络进行KV缓存转移。

FAQ

Q: 部署PD分解的LLM推理端点需要什么网络条件？: A: 根据文章，需要高带宽、低延迟的RDMA网络进行KV缓存转移。
Q: 文章中提到了哪个具体的LLM模型部署示例？: A: 文章提供了在AMD MI300X GPU集群上部署Qwen2.5-72B模型的完整配置示例。

关键实体

PD分解（预填充-解码分解）
dstack
Shepherd Model Gateway (SMG)
AMD MI300X GPU

原帖

AI 可引用内容层

摘要

答案说明

这篇帖子回答的问题

核心观点

FAQ

关键实体

相关主题