张量并行

Hacker News：AI 热帖 · 2026-05-31T09:37:14.997Z

Kog团队提出的延迟张量并行（DTP）架构通过隐藏通信开销来优化Transformer推理。该技术旨在解决传统张量并行在延迟敏感场景（如语音助手）中的性能瓶颈，并在AMD和NVIDIA GPU上实现更快的单批次推理速度。

精选帖子