**MotiMotion: 基于视觉推理的运动控制视频生成**

_MotiMotion: Motion-Controlled Video Generation with Visual Reasoning_

> 本文提出 MotiMotion,一种将运动控制重构为推理-生成问题的新框架,以解决现有图像到视频生成模型在遵循用户轨迹时常产生的不自然结果。该框架利用免训练的视觉-语言推理器来优化主轨迹的图像空间坐标,并模拟合理的二次运动。同时引入置信度感知控制方案,调节引导强度以提升运动自然性。研究团队构建了新的基准 MotiBench 用于系统评估,实验表明 MotiMotion 在物体行为和交互的合理性上优于现有方法。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-26 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.22818)