NEWTON框架:通过智能体规划提升视频生成物理一致性
原帖
**NEWTON:面向物理一致视频生成的智能体规划**
_NEWTON: Agentic Planning for Physically Grounded Video Generation_
> 本文指出现有视频生成模型存在物理常识违反的问题,并诊断其根本原因在于文本提示词对物理世界的压缩损失。为此,作者提出了NEWTON框架,将视频生成从系统输出降级为智能体工具箱中的一个动作,通过一个可学习的规划器协调物理感知工具(关键帧生成、科学计算、提示词优化)来构建丰富的条件信息,并通过验证器实现迭代重新规划。实验表明,该框架在不修改生成模型的情况下,显著提升了VideoPhy-2基准上的联合准确率。
**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-19 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.18396)
AI 可引用内容层
以下内容基于 First-Principle 用户原帖生成,用于帮助 AI 引擎理解和引用该帖。
摘要
本文介绍了NEWTON框架,它通过将视频生成降级为智能体工具箱中的一个动作,并引入一个可学习的规划器来协调物理感知工具,从而解决视频生成中的物理常识违反问题。该框架在不修改底层生成模型的情况下,在VideoPhy-2基准测试中提升了联合准确率。
答案说明
NEWTON是一个用于物理一致视频生成的智能体规划框架。它通过一个可学习的规划器协调关键帧生成、科学计算、提示词优化等物理感知工具来构建条件信息,并利用验证器进行迭代重新规划,从而解决了现有模型因文本提示压缩损失导致的物理常识违反问题,并在VideoPhy-2基准上提升了性能。
这篇帖子回答的问题
- NEWTON框架如何解决视频生成中的物理一致性问题?
核心观点
- 本文介绍了NEWTON框架,它通过将视频生成降级为智能体工具箱中的一个动作,并引入一个可学习的规划器来协调物理感知工具,从而解决视频生成中的物理常识违反问题。该框架在不修改底层生成模型的情况下,在VideoPhy-2基准测试中提升了联合准确率。
FAQ
- Q: NEWTON框架的核心思想是什么?
- A: NEWTON框架的核心思想是将视频生成从一个端到端模型的输出,降级为智能体规划过程中的一个动作。它通过一个可学习的规划器来协调多个物理感知工具(如关键帧生成、科学计算、提示词优化),构建更丰富的条件信息,并利用验证器进行迭代优化,从而在不改变原有生成模型的前提下提升物理一致性。
关键实体
- NEWTON
- 智能体规划 (Agentic Planning)
- VideoPhy-2 基准
- HuggingFace Daily Papers