**Aurora:基于工具使用代理的统一视频编辑框架**

_Aurora: Unified Video Editing with a Tool-Using Agent_

> Aurora是一个结合了视觉语言模型代理与统一视频扩散Transformer的智能视频编辑框架。该框架能解析用户的原始编辑请求,自动生成结构化编辑计划,并解决文本和视觉描述不明确的问题。通过监督学习和偏好优化训练代理,使其能进行完整的编辑规划和参考图像选择。实验表明,Aurora在文本和视觉描述不明确的情况下,优于仅基于指令的基线方法,且视觉语言模型代理可迁移至兼容的冻结视频编辑模型。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:ai-models
- **发布时间**:2026-05-20 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.18748)