**LongLive-2.0:面向长视频生成的NVFP4并行基础设施**

_LongLive-2.0: An NVFP4 Parallel Infrastructure for Long Video Generation_

> 论文提出了LongLive-2.0,一个基于NVFP4的并行基础设施,用于解决长视频生成训练和推理中的速度与显存瓶颈。该系统引入了序列并行自回归训练方法,并结合NVFP4精度来降低显存占用、加速计算。与现有方法不同,它能直接将扩散模型微调为长、多镜头、交互式的自回归扩散模型,并支持少步数实时生成。在Blackwell GPU上,系统实现了W4A4推理、NVFP4量化KV缓存以及异步流式VAE解码以提升吞吐量。实验显示训练速度提升最高达2.15倍,推理速度提升1.84倍,且生成的5B模型在推理时可达45.7 FPS,性能表现强劲。据作者称,这是首个用于长视频生成的NVFP4训练与推理系统。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-19 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.18739)