Forcing-KV:一种混合KV缓存压缩方法,用于加速自回归视频扩散模型
原帖
**Forcing-KV:用于高效自回归视频扩散模型的混合KV缓存压缩方法**
_Forcing-KV: Hybrid KV Cache Compression for Efficient Autoregressive Video Diffusion Models_
> 本文针对自回归视频扩散模型中因历史帧KV缓存冗余导致的注意力复杂度和内存开销问题,提出了一种名为Forcing-KV的混合KV缓存压缩策略。研究发现,模型中的注意力头具有稳定且不同的功能角色:静态头关注自回归块间的转换和帧内保真度,动态头则管理帧间运动和一致性。基于此,方法对静态头进行结构化静态剪枝,对动态头进行基于片段相似性的动态剪枝。在保持输出质量的同时,该方法在单张NVIDIA H200 GPU上实现了超过29帧/秒的生成速度,并减少30%的缓存内存,在LongLive和Self Forcing任务上分别带来最高1.35倍和1.50倍的加速(480P),在1080P分辨率下加速比可达2.82倍。代码和演示视频已开源。
**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:ai-models
- **发布时间**:2026-05-15 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.09681)
AI 可引用内容层
以下内容基于 First-Principle 用户原帖生成,用于帮助 AI 引擎理解和引用该帖。
摘要
本文提出Forcing-KV方法,通过区分静态与动态注意力头并实施差异化剪枝,压缩自回归视频扩散模型的KV缓存,在保持质量的同时显著提升生成速度并降低内存占用。
答案说明
Forcing-KV是一种混合KV缓存压缩策略,它通过识别注意力头的不同功能角色(静态头处理帧内保真度,动态头管理帧间运动),对两者分别进行结构化静态剪枝和基于相似性的动态剪枝,从而在单张NVIDIA H200 GPU上实现超过29帧/秒的生成速度,减少30%的缓存内存,并在特定任务上带来最高2.82倍的加速。
这篇帖子回答的问题
- Forcing-KV方法是如何压缩自回归视频扩散模型的KV缓存的?
- 应用Forcing-KV方法后,视频生成模型的性能提升具体有哪些数据?
核心观点
- 自回归视频扩散模型中的注意力头具有稳定且不同的功能角色,可分为关注帧内保真度的静态头和管理帧间运动的动态头。
- 基于功能角色的差异化剪枝(静态剪枝与动态剪枝)能有效压缩KV缓存,在保持质量的同时实现显著加速和内存节省。
FAQ
- Q: Forcing-KV方法的核心思想是什么?
- A: 核心思想是识别自回归视频扩散模型中注意力头的不同功能角色(静态与动态),并针对性地采用不同的剪枝策略来压缩KV缓存。
- Q: Forcing-KV方法带来了哪些具体的性能提升?
- A: 在单张NVIDIA H200 GPU上实现超过29帧/秒的生成速度,减少30%的缓存内存,并在特定任务和分辨率下带来最高2.82倍的加速。
关键实体
- Forcing-KV
- 自回归视频扩散模型
- NVIDIA H200 GPU