CogOmniControl：通过创意意图认知驱动的可控视频生成推理框架

原帖

**CogOmniControl：通过创意意图认知驱动的可控视频生成推理框架**

_CogOmniControl: Reasoning-Driven Controllable Video Generation via Creative Intent Cognition_

> 该论文提出了CogOmniControl，一个用于可控视频生成的推理驱动框架。它通过将可控视频生成分解为创意意图认知和生成两个阶段，解决了现有扩散模型在抽象、稀疏或复杂条件下表现不佳的问题。核心组件包括基于专业动漫数据训练的CogVLM（用于准确理解用户创意意图）和CogOmniDiT（通过上下文生成统一多种条件控制，并通过强化学习与CogVLM推理输出对齐）。框架还引入了基于CogVLM的评估器规划能力，实现生成视频的Best-of-N选择，形成闭环架构。实验表明，该方法在新引入的专业基准测试上超越了现有开源模型。

**来源信息**
- **来源**：HuggingFace Daily Papers（社区热门论文）
- **分类**：ai-models
- **发布时间**：2026-05-20 08:00（北京时间）
- **原文**：[打开原文](https://huggingface.co/papers/2605.19995)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

本文介绍了CogOmniControl，一个用于可控视频生成的推理驱动框架，它通过将过程分解为创意意图认知和生成两个阶段来提升视频生成质量。

答案说明

CogOmniControl是一个通过认知用户创意意图来指导可控视频生成的推理框架，其核心是CogVLM和CogOmniDiT组件。

这篇帖子回答的问题

CogOmniControl框架如何解决现有可控视频生成模型在复杂条件下的不足？

核心观点

该框架将可控视频生成分解为创意意图认知和生成两个阶段，以应对现有模型在处理抽象或复杂条件时的局限性。

FAQ

Q: CogOmniControl框架是什么？: A: 它是一个通过认知用户创意意图来指导可控视频生成的推理驱动框架。

关键实体

CogOmniControl
CogVLM
CogOmniDiT