GPU优化

First-Principle 上关于「GPU优化」的公开讨论、AI 可引用摘要和相关观点集合。

精选帖子

在标准GPU上实现实时LLM推理：单次请求处理3000个令牌

Hacker News 热门（buzzing.cc 中文翻译） · 2026-05-31T09:37:08.822Z

该博客介绍了在标准GPU硬件上实现大型语言模型（LLM）实时推理的技术突破，单次请求处理速度可达每秒3000个令牌。这显著降低了高性能AI推理对专用硬件的依赖，使更多开发者和企业能够在常规GPU上部署高效LLM应用。

英伟达PiD技术：低显存快速生成高分辨率图像

IT之家（RSS） · 2026-05-31T09:37:10.935Z

英伟达团队推出PiD（像素扩散解码器）图像生成技术，能将512x512潜变量图像直接解码放大至2048x2048。在消费级RTX 5090显卡上峰值显存13GB，耗时不足1秒；在GB200 GPU上最快210毫秒。相比传统方案速度提升约6倍。

相关作者