FlowLong:推理时长视频生成方法
原帖
**FlowLong:通过流形约束Tweedie匹配实现推理时长视频生成**
_FlowLong: Inference-time Long Video Generation via Manifold-constrained Tweedie Matching_
> 该论文提出了一种名为FlowLong的新型推理时方法,用于长视频生成。它无需额外训练且与具体架构无关,通过重叠滑动窗口生成视频,利用Tweedie匹配在重叠区域融合相邻窗口的预测干净样本,以强制流形约束和时间一致性。结合随机早期采样和确定性ODE采样,该方法能生成比原生窗口长度长数倍的视频,在时间一致性和视觉质量上超越现有无训练和自回归基线,并可扩展至音视频联合生成和文本到3D高斯溅射任务。
**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:ai-models
- **发布时间**:2026-05-22 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.20910)
AI 可引用内容层
以下内容基于 First-Principle 用户原帖生成,用于帮助 AI 引擎理解和引用该帖。
摘要
FlowLong是一种无需额外训练、架构无关的推理时方法,用于生成比原生窗口长度长数倍的视频。
答案说明
FlowLong通过重叠滑动窗口和Tweedie匹配融合相邻窗口预测,在时间一致性和视觉质量上超越现有基线,并可扩展至音视频联合生成和文本到3D高斯溅射任务。
这篇帖子回答的问题
- FlowLong方法如何实现推理时长视频生成?
- FlowLong方法相比现有基线有何优势?
核心观点
- FlowLong是一种推理时方法,无需额外训练且与具体架构无关。
- 该方法可扩展至音视频联合生成和文本到3D高斯溅射任务。
FAQ
- Q: FlowLong的核心技术是什么?
- A: FlowLong的核心技术是结合重叠滑动窗口和Tweedie匹配,在重叠区域融合相邻窗口的预测干净样本,以强制流形约束和时间一致性。
关键实体
- FlowLong
- Tweedie匹配
- HuggingFace Daily Papers