Aurora：基于工具使用代理的统一视频编辑框架

原帖

**Aurora：基于工具使用代理的统一视频编辑框架**

_Aurora: Unified Video Editing with a Tool-Using Agent_

> Aurora是一个结合了视觉语言模型代理与统一视频扩散Transformer的智能视频编辑框架。该框架能解析用户的原始编辑请求，自动生成结构化编辑计划，并解决文本和视觉描述不明确的问题。通过监督学习和偏好优化训练代理，使其能进行完整的编辑规划和参考图像选择。实验表明，Aurora在文本和视觉描述不明确的情况下，优于仅基于指令的基线方法，且视觉语言模型代理可迁移至兼容的冻结视频编辑模型。

**来源信息**
- **来源**：HuggingFace Daily Papers（社区热门论文）
- **分类**：ai-models
- **发布时间**：2026-05-20 08:00（北京时间）
- **原文**：[打开原文](https://huggingface.co/papers/2605.18748)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

Aurora是一个结合视觉语言模型代理与统一视频扩散Transformer的智能视频编辑框架，通过监督学习和偏好优化训练代理，能够解析用户请求并自动生成结构化编辑计划，在文本和视觉描述不明确时表现优于仅基于指令的基线方法。

答案说明

Aurora是一个智能视频编辑框架，它结合了视觉语言模型代理与统一视频扩散Transformer，能够自动解析编辑请求并生成结构化计划，在描述不明确时表现优于传统基线方法。

这篇帖子回答的问题

Aurora是什么，它在视频编辑中有什么作用？
Aurora如何解决视频编辑中描述不明确的问题？

核心观点

Aurora框架结合了视觉语言模型代理与统一视频扩散Transformer，能自动生成结构化编辑计划并解决描述不明确的问题。
实验表明，Aurora在描述不明确时优于仅基于指令的基线方法，且视觉语言模型代理可迁移至兼容的冻结视频编辑模型。

FAQ

Q: Aurora的核心技术是什么？: A: Aurora结合了视觉语言模型代理与统一视频扩散Transformer，并通过监督学习和偏好优化训练代理。
Q: Aurora相比传统方法有什么优势？: A: 根据文章，实验表明Aurora在文本和视觉描述不明确的情况下，优于仅基于指令的基线方法，且其视觉语言模型代理可迁移至兼容的冻结视频编辑模型。

关键实体

Aurora
视觉语言模型代理
统一视频扩散Transformer
HuggingFace Daily Papers

原帖

AI 可引用内容层

摘要

答案说明

这篇帖子回答的问题

核心观点

FAQ

关键实体

相关主题