**CogOmniControl:通过创意意图认知驱动的可控视频生成推理框架**

_CogOmniControl: Reasoning-Driven Controllable Video Generation via Creative Intent Cognition_

> 该论文提出了CogOmniControl,一个用于可控视频生成的推理驱动框架。它通过将可控视频生成分解为创意意图认知和生成两个阶段,解决了现有扩散模型在抽象、稀疏或复杂条件下表现不佳的问题。核心组件包括基于专业动漫数据训练的CogVLM(用于准确理解用户创意意图)和CogOmniDiT(通过上下文生成统一多种条件控制,并通过强化学习与CogVLM推理输出对齐)。框架还引入了基于CogVLM的评估器规划能力,实现生成视频的Best-of-N选择,形成闭环架构。实验表明,该方法在新引入的专业基准测试上超越了现有开源模型。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:ai-models
- **发布时间**:2026-05-20 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.19995)