Forcing-KV:一种混合KV缓存压缩方法,用于加速自回归视频扩散模型 HuggingFace Daily Papers(社区热门论文) · 2026-05-16T03:32:23.638Z 本文提出Forcing-KV方法,通过区分静态与动态注意力头并实施差异化剪枝,压缩自回归视频扩散模型的KV缓存,在保持质量的同时显著提升生成速度并降低内存占用。