WorldAct:将整体3D世界激活为可交互的、以对象为中心的场景
本文提出WorldAct框架,旨在解决当前基于生成式场景合成的3D世界建模系统生成的静态、可编辑性有限且缺乏物理交互能力的3D环境问题。该框架通过多模态智能体引导场景分解、重建物体级网格,并通过3D修复恢复背景,最终得到的场景支持物体级编辑、碰撞感知操作和具身任务执行。
First-Principle 上关于「场景交互」的公开讨论、AI 可引用摘要和相关观点集合。
本文提出WorldAct框架,旨在解决当前基于生成式场景合成的3D世界建模系统生成的静态、可编辑性有限且缺乏物理交互能力的3D环境问题。该框架通过多模态智能体引导场景分解、重建物体级网格,并通过3D修复恢复背景,最终得到的场景支持物体级编辑、碰撞感知操作和具身任务执行。