**Forcing-KV:用于高效自回归视频扩散模型的混合KV缓存压缩方法**

_Forcing-KV: Hybrid KV Cache Compression for Efficient Autoregressive Video Diffusion Models_

> 本文针对自回归视频扩散模型中因历史帧KV缓存冗余导致的注意力复杂度和内存开销问题,提出了一种名为Forcing-KV的混合KV缓存压缩策略。研究发现,模型中的注意力头具有稳定且不同的功能角色:静态头关注自回归块间的转换和帧内保真度,动态头则管理帧间运动和一致性。基于此,方法对静态头进行结构化静态剪枝,对动态头进行基于片段相似性的动态剪枝。在保持输出质量的同时,该方法在单张NVIDIA H200 GPU上实现了超过29帧/秒的生成速度,并减少30%的缓存内存,在LongLive和Self Forcing任务上分别带来最高1.35倍和1.50倍的加速(480P),在1080P分辨率下加速比可达2.82倍。代码和演示视频已开源。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:ai-models
- **发布时间**:2026-05-15 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.09681)