**NEWTON:面向物理一致视频生成的智能体规划**

_NEWTON: Agentic Planning for Physically Grounded Video Generation_

> 本文指出现有视频生成模型存在物理常识违反的问题,并诊断其根本原因在于文本提示词对物理世界的压缩损失。为此,作者提出了NEWTON框架,将视频生成从系统输出降级为智能体工具箱中的一个动作,通过一个可学习的规划器协调物理感知工具(关键帧生成、科学计算、提示词优化)来构建丰富的条件信息,并通过验证器实现迭代重新规划。实验表明,该框架在不修改生成模型的情况下,显著提升了VideoPhy-2基准上的联合准确率。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-19 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.18396)