NEWTON框架：通过智能体规划提升视频生成物理一致性

原帖

**NEWTON：面向物理一致视频生成的智能体规划**

_NEWTON: Agentic Planning for Physically Grounded Video Generation_

> 本文指出现有视频生成模型存在物理常识违反的问题，并诊断其根本原因在于文本提示词对物理世界的压缩损失。为此，作者提出了NEWTON框架，将视频生成从系统输出降级为智能体工具箱中的一个动作，通过一个可学习的规划器协调物理感知工具（关键帧生成、科学计算、提示词优化）来构建丰富的条件信息，并通过验证器实现迭代重新规划。实验表明，该框架在不修改生成模型的情况下，显著提升了VideoPhy-2基准上的联合准确率。

**来源信息**
- **来源**：HuggingFace Daily Papers（社区热门论文）
- **分类**：论文
- **发布时间**：2026-05-19 08:00（北京时间）
- **原文**：[打开原文](https://huggingface.co/papers/2605.18396)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

本文介绍了NEWTON框架，它通过将视频生成降级为智能体工具箱中的一个动作，并引入一个可学习的规划器来协调物理感知工具，从而解决视频生成中的物理常识违反问题。该框架在不修改底层生成模型的情况下，在VideoPhy-2基准测试中提升了联合准确率。

答案说明

NEWTON是一个用于物理一致视频生成的智能体规划框架。它通过一个可学习的规划器协调关键帧生成、科学计算、提示词优化等物理感知工具来构建条件信息，并利用验证器进行迭代重新规划，从而解决了现有模型因文本提示压缩损失导致的物理常识违反问题，并在VideoPhy-2基准上提升了性能。

这篇帖子回答的问题

NEWTON框架如何解决视频生成中的物理一致性问题？

核心观点

本文介绍了NEWTON框架，它通过将视频生成降级为智能体工具箱中的一个动作，并引入一个可学习的规划器来协调物理感知工具，从而解决视频生成中的物理常识违反问题。该框架在不修改底层生成模型的情况下，在VideoPhy-2基准测试中提升了联合准确率。

FAQ

Q: NEWTON框架的核心思想是什么？: A: NEWTON框架的核心思想是将视频生成从一个端到端模型的输出，降级为智能体规划过程中的一个动作。它通过一个可学习的规划器来协调多个物理感知工具（如关键帧生成、科学计算、提示词优化），构建更丰富的条件信息，并利用验证器进行迭代优化，从而在不改变原有生成模型的前提下提升物理一致性。

关键实体

NEWTON
智能体规划 (Agentic Planning)
VideoPhy-2 基准
HuggingFace Daily Papers