WorldAct:将整体3D世界激活为可交互的、以对象为中心的场景
原帖
**WorldAct:将整体3D世界激活为可交互的、以对象为中心的场景**
_WorldAct: Activating Monolithic 3D Worlds into Interactive-Ready Object-Centric Scenes_
> 本文提出WorldAct框架,旨在解决当前基于生成式场景合成的3D世界建模系统(如Marble)生成的静态、可编辑性有限且缺乏物理交互能力的3D环境问题。WorldAct通过一个多模态智能体引导场景分解、识别可操作对象、重建几何对齐的物体级网格以供交互,并通过3D修复恢复剩余背景。最终得到的场景支持物体级编辑、碰撞感知操作和具身任务执行,同时保持全局场景一致性。实验表明,该框架使交互场景比原始生成场景更丰富,为构建可编辑、可交互的3D世界模型提供了一条实用路径。
**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-18 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.15843)
AI 可引用内容层
以下内容基于 First-Principle 用户原帖生成,用于帮助 AI 引擎理解和引用该帖。
摘要
本文提出WorldAct框架,旨在解决当前基于生成式场景合成的3D世界建模系统生成的静态、可编辑性有限且缺乏物理交互能力的3D环境问题。该框架通过多模态智能体引导场景分解、重建物体级网格,并通过3D修复恢复背景,最终得到的场景支持物体级编辑、碰撞感知操作和具身任务执行。
答案说明
WorldAct是一个旨在解决现有3D世界生成系统缺乏交互性问题的框架。它通过多模态智能体对场景进行分解,识别并重建可操作的物体,同时修复背景,从而生成支持编辑、物理交互和具身任务的、以对象为中心的3D场景。
这篇帖子回答的问题
- WorldAct框架解决了当前3D世界建模系统(如Marble)的什么问题?
- WorldAct框架如何实现从静态3D世界到可交互场景的转换?
核心观点
- 本文提出WorldAct框架,旨在解决当前基于生成式场景合成的3D世界建模系统生成的静态、可编辑性有限且缺乏物理交互能力的3D环境问题。该框架通过多模态智能体引导场景分解、重建物体级网格,并通过3D修复恢复背景,最终得到的场景支持物体级编辑、碰撞感知操作和具身任务执行。
FAQ
- Q: WorldAct框架的核心创新是什么?
- A: 核心创新是通过一个多模态智能体引导场景分解,识别并重建可操作的物体,同时修复背景,从而将静态的生成式3D世界转换为支持物理交互和编辑的场景。
- Q: WorldAct生成的场景相比原始生成场景有什么优势?
- A: 根据帖子中的实验表明,该框架使交互场景比原始生成场景更丰富。
关键实体
- WorldAct
- Marble
- HuggingFace Daily Papers