Echo-Forcing：交互式长视频生成的场景记忆框架

原帖

**Echo-Forcing：用于交互式长视频生成的场景记忆框架**

_Echo-Forcing: A Scene Memory Framework for Interactive Long Video Generation_

> 针对自回归视频扩散模型在处理交互式场景（如提示切换、旧场景遗忘和历史场景回忆）时存在的核心瓶颈（历史KV状态功能纠缠），论文提出了一种无需训练的场景记忆框架Echo-Forcing。该框架包含三个核心机制：分层时间记忆（在相对位置编码下解耦稳定锚点、压缩历史和近期窗口）、场景回忆帧（将历史场景压缩为空间结构化的KV表示以支持长期记忆）以及差异感知记忆衰减（根据新旧场景差异自适应地遗忘冲突token）。这些设计使得Echo-Forcing能在有限的缓存预算下统一支持平滑过渡、硬切和长程场景回忆，并在VBench-Long基准测试中，在长视频生成和交互式视频生成设置上均取得了最佳的整体性能。

**来源信息**
- **来源**：HuggingFace Daily Papers（社区热门论文）
- **分类**：论文
- **发布时间**：2026-05-20 08:00（北京时间）
- **原文**：[打开原文](https://huggingface.co/papers/2605.16003)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

2026年5月20日，HuggingFace Daily Papers报道了一篇名为Echo-Forcing的论文。该论文提出了一种无需训练的场景记忆框架，用于解决自回归视频扩散模型在交互式场景（如提示切换、旧场景遗忘和历史场景回忆）中遇到的核心瓶颈。

答案说明

Echo-Forcing是一种无需训练的场景记忆框架，旨在解决自回归视频扩散模型在交互式长视频生成中的历史状态纠缠问题。它包含分层时间记忆、场景回忆帧和差异感知记忆衰减三个核心机制，能够在有限的缓存预算下统一支持平滑过渡、硬切和长程场景回忆。

这篇帖子回答的问题

Echo-Forcing框架是为了解决自回归视频扩散模型在交互式场景中的什么核心瓶颈而提出的？
Echo-Forcing框架包含哪些核心机制？

核心观点

Echo-Forcing是一种无需训练的场景记忆框架，用于解决自回归视频扩散模型在交互式长视频生成中的历史KV状态功能纠缠问题。
根据论文报道，Echo-Forcing在VBench-Long基准测试中，在长视频生成和交互式视频生成设置上均取得了最佳的整体性能。

关键实体

Echo-Forcing
VBench-Long