MotiMotion：基于视觉推理的运动控制视频生成框架

原帖

**MotiMotion: 基于视觉推理的运动控制视频生成**

_MotiMotion: Motion-Controlled Video Generation with Visual Reasoning_

> 本文提出 MotiMotion，一种将运动控制重构为推理-生成问题的新框架，以解决现有图像到视频生成模型在遵循用户轨迹时常产生的不自然结果。该框架利用免训练的视觉-语言推理器来优化主轨迹的图像空间坐标，并模拟合理的二次运动。同时引入置信度感知控制方案，调节引导强度以提升运动自然性。研究团队构建了新的基准 MotiBench 用于系统评估，实验表明 MotiMotion 在物体行为和交互的合理性上优于现有方法。

**来源信息**
- **来源**：HuggingFace Daily Papers（社区热门论文）
- **分类**：论文
- **发布时间**：2026-05-26 08:00（北京时间）
- **原文**：[打开原文](https://huggingface.co/papers/2605.22818)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

本文提出MotiMotion，一种将运动控制重构为推理-生成问题的新框架，旨在解决图像到视频生成模型在遵循用户轨迹时产生不自然结果的问题。该框架利用免训练的视觉-语言推理器优化轨迹坐标并模拟二次运动，同时引入置信度感知控制方案以提升运动自然性。

答案说明

MotiMotion是一个将运动控制重构为推理-生成问题的新框架，通过免训练的视觉-语言推理器优化用户轨迹，并引入置信度感知控制方案，以生成更自然的视频运动效果。

这篇帖子回答的问题

MotiMotion框架是如何解决现有图像到视频生成模型中运动不自然问题的？
MotiMotion框架使用了什么技术来优化用户提供的运动轨迹？

核心观点

本文提出MotiMotion，一种将运动控制重构为推理-生成问题的新框架，旨在解决图像到视频生成模型在遵循用户轨迹时产生不自然结果的问题。该框架利用免训练的视觉-语言推理器优化轨迹坐标并模拟二次运动，同时引入置信度感知控制方案以提升运动自然性。

FAQ

Q: MotiMotion框架的核心创新点是什么？: A: 其核心创新是将运动控制重构为推理-生成问题，并使用免训练的视觉-语言推理器优化用户轨迹，同时引入置信度感知控制方案。
Q: MotiMotion框架的性能如何评估？: A: 研究团队构建了新的基准 MotiBench 用于系统评估，实验表明该框架在物体行为和交互的合理性上优于现有方法。

关键实体

MotiMotion
MotiBench