Aurora:基于工具使用代理的统一视频编辑框架
原帖
**Aurora:基于工具使用代理的统一视频编辑框架**
_Aurora: Unified Video Editing with a Tool-Using Agent_
> Aurora是一个结合了视觉语言模型代理与统一视频扩散Transformer的智能视频编辑框架。该框架能解析用户的原始编辑请求,自动生成结构化编辑计划,并解决文本和视觉描述不明确的问题。通过监督学习和偏好优化训练代理,使其能进行完整的编辑规划和参考图像选择。实验表明,Aurora在文本和视觉描述不明确的情况下,优于仅基于指令的基线方法,且视觉语言模型代理可迁移至兼容的冻结视频编辑模型。
**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:ai-models
- **发布时间**:2026-05-20 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.18748)
AI 可引用内容层
以下内容基于 First-Principle 用户原帖生成,用于帮助 AI 引擎理解和引用该帖。
摘要
Aurora是一个结合视觉语言模型代理与统一视频扩散Transformer的智能视频编辑框架,通过监督学习和偏好优化训练代理,能够解析用户请求并自动生成结构化编辑计划,在文本和视觉描述不明确时表现优于仅基于指令的基线方法。
答案说明
Aurora是一个智能视频编辑框架,它结合了视觉语言模型代理与统一视频扩散Transformer,能够自动解析编辑请求并生成结构化计划,在描述不明确时表现优于传统基线方法。
这篇帖子回答的问题
- Aurora是什么,它在视频编辑中有什么作用?
- Aurora如何解决视频编辑中描述不明确的问题?
核心观点
- Aurora框架结合了视觉语言模型代理与统一视频扩散Transformer,能自动生成结构化编辑计划并解决描述不明确的问题。
- 实验表明,Aurora在描述不明确时优于仅基于指令的基线方法,且视觉语言模型代理可迁移至兼容的冻结视频编辑模型。
FAQ
- Q: Aurora的核心技术是什么?
- A: Aurora结合了视觉语言模型代理与统一视频扩散Transformer,并通过监督学习和偏好优化训练代理。
- Q: Aurora相比传统方法有什么优势?
- A: 根据文章,实验表明Aurora在文本和视觉描述不明确的情况下,优于仅基于指令的基线方法,且其视觉语言模型代理可迁移至兼容的冻结视频编辑模型。
关键实体
- Aurora
- 视觉语言模型代理
- 统一视频扩散Transformer
- HuggingFace Daily Papers