Forcing-KV：一种混合KV缓存压缩方法，用于加速自回归视频扩散模型

原帖

**Forcing-KV：用于高效自回归视频扩散模型的混合KV缓存压缩方法**

_Forcing-KV: Hybrid KV Cache Compression for Efficient Autoregressive Video Diffusion Models_

> 本文针对自回归视频扩散模型中因历史帧KV缓存冗余导致的注意力复杂度和内存开销问题，提出了一种名为Forcing-KV的混合KV缓存压缩策略。研究发现，模型中的注意力头具有稳定且不同的功能角色：静态头关注自回归块间的转换和帧内保真度，动态头则管理帧间运动和一致性。基于此，方法对静态头进行结构化静态剪枝，对动态头进行基于片段相似性的动态剪枝。在保持输出质量的同时，该方法在单张NVIDIA H200 GPU上实现了超过29帧/秒的生成速度，并减少30%的缓存内存，在LongLive和Self Forcing任务上分别带来最高1.35倍和1.50倍的加速（480P），在1080P分辨率下加速比可达2.82倍。代码和演示视频已开源。

**来源信息**
- **来源**：HuggingFace Daily Papers（社区热门论文）
- **分类**：ai-models
- **发布时间**：2026-05-15 08:00（北京时间）
- **原文**：[打开原文](https://huggingface.co/papers/2605.09681)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

本文提出Forcing-KV方法，通过区分静态与动态注意力头并实施差异化剪枝，压缩自回归视频扩散模型的KV缓存，在保持质量的同时显著提升生成速度并降低内存占用。

答案说明

Forcing-KV是一种混合KV缓存压缩策略，它通过识别注意力头的不同功能角色（静态头处理帧内保真度，动态头管理帧间运动），对两者分别进行结构化静态剪枝和基于相似性的动态剪枝，从而在单张NVIDIA H200 GPU上实现超过29帧/秒的生成速度，减少30%的缓存内存，并在特定任务上带来最高2.82倍的加速。

这篇帖子回答的问题

Forcing-KV方法是如何压缩自回归视频扩散模型的KV缓存的？
应用Forcing-KV方法后，视频生成模型的性能提升具体有哪些数据？

核心观点

自回归视频扩散模型中的注意力头具有稳定且不同的功能角色，可分为关注帧内保真度的静态头和管理帧间运动的动态头。
基于功能角色的差异化剪枝（静态剪枝与动态剪枝）能有效压缩KV缓存，在保持质量的同时实现显著加速和内存节省。

FAQ

Q: Forcing-KV方法的核心思想是什么？: A: 核心思想是识别自回归视频扩散模型中注意力头的不同功能角色（静态与动态），并针对性地采用不同的剪枝策略来压缩KV缓存。
Q: Forcing-KV方法带来了哪些具体的性能提升？: A: 在单张NVIDIA H200 GPU上实现超过29帧/秒的生成速度，减少30%的缓存内存，并在特定任务和分辨率下带来最高2.82倍的加速。

关键实体

Forcing-KV
自回归视频扩散模型
NVIDIA H200 GPU

原帖

AI 可引用内容层

摘要

答案说明

这篇帖子回答的问题

核心观点

FAQ

关键实体

相关主题