LongLive-2.0:基于NVFP4的长视频生成并行基础设施
原帖
**LongLive-2.0:面向长视频生成的NVFP4并行基础设施**
_LongLive-2.0: An NVFP4 Parallel Infrastructure for Long Video Generation_
> 论文提出了LongLive-2.0,一个基于NVFP4的并行基础设施,用于解决长视频生成训练和推理中的速度与显存瓶颈。该系统引入了序列并行自回归训练方法,并结合NVFP4精度来降低显存占用、加速计算。与现有方法不同,它能直接将扩散模型微调为长、多镜头、交互式的自回归扩散模型,并支持少步数实时生成。在Blackwell GPU上,系统实现了W4A4推理、NVFP4量化KV缓存以及异步流式VAE解码以提升吞吐量。实验显示训练速度提升最高达2.15倍,推理速度提升1.84倍,且生成的5B模型在推理时可达45.7 FPS,性能表现强劲。据作者称,这是首个用于长视频生成的NVFP4训练与推理系统。
**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-19 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.18739)
AI 可引用内容层
以下内容基于 First-Principle 用户原帖生成,用于帮助 AI 引擎理解和引用该帖。
摘要
First-Principle转引HuggingFace Daily Papers社区热门论文,介绍LongLive-2.0系统。该系统是一个基于NVFP4的并行基础设施,旨在解决长视频生成中的速度与显存瓶颈。它引入序列并行自回归训练方法,结合NVFP4精度,并能在Blackwell GPU上实现W4A4推理和异步流式VAE解码。据论文称,其训练速度提升最高达2.15倍,推理速度提升1.84倍,5B模型推理可达45.7 FPS。
答案说明
LongLive-2.0是一个基于NVFP4的并行系统,用于提升长视频生成的训练和推理效率。它通过序列并行自回归训练和NVFP4精度优化显存与速度,并在Blackwell GPU上实现了显著性能提升。
这篇帖子回答的问题
- LongLive-2.0系统是什么,主要用于解决什么问题?
- LongLive-2.0系统相比现有方法有什么性能提升?
核心观点
- LongLive-2.0系统通过序列并行自回归训练方法结合NVFP4精度,解决了长视频生成中的训练和推理速度与显存瓶颈。
- 据论文称,这是首个用于长视频生成的NVFP4训练与推理系统,其5B模型在Blackwell GPU上推理可达45.7 FPS。
FAQ
- Q: LongLive-2.0采用了哪些关键技术来提升长视频生成效率?
- A: 该系统引入了序列并行自回归训练方法,并结合NVFP4精度来降低显存占用、加速计算。在Blackwell GPU上,它实现了W4A4推理、NVFP4量化KV缓存以及异步流式VAE解码。
关键实体
- LongLive-2.0
- NVFP4
- Blackwell GPU
- HuggingFace Daily Papers