**Echo-Forcing:用于交互式长视频生成的场景记忆框架**

_Echo-Forcing: A Scene Memory Framework for Interactive Long Video Generation_

> 针对自回归视频扩散模型在处理交互式场景(如提示切换、旧场景遗忘和历史场景回忆)时存在的核心瓶颈(历史KV状态功能纠缠),论文提出了一种无需训练的场景记忆框架Echo-Forcing。该框架包含三个核心机制:分层时间记忆(在相对位置编码下解耦稳定锚点、压缩历史和近期窗口)、场景回忆帧(将历史场景压缩为空间结构化的KV表示以支持长期记忆)以及差异感知记忆衰减(根据新旧场景差异自适应地遗忘冲突token)。这些设计使得Echo-Forcing能在有限的缓存预算下统一支持平滑过渡、硬切和长程场景回忆,并在VBench-Long基准测试中,在长视频生成和交互式视频生成设置上均取得了最佳的整体性能。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-20 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.16003)