WorldAct：将整体3D世界激活为可交互的、以对象为中心的场景

原帖

**WorldAct：将整体3D世界激活为可交互的、以对象为中心的场景**

_WorldAct: Activating Monolithic 3D Worlds into Interactive-Ready Object-Centric Scenes_

> 本文提出WorldAct框架，旨在解决当前基于生成式场景合成的3D世界建模系统（如Marble）生成的静态、可编辑性有限且缺乏物理交互能力的3D环境问题。WorldAct通过一个多模态智能体引导场景分解、识别可操作对象、重建几何对齐的物体级网格以供交互，并通过3D修复恢复剩余背景。最终得到的场景支持物体级编辑、碰撞感知操作和具身任务执行，同时保持全局场景一致性。实验表明，该框架使交互场景比原始生成场景更丰富，为构建可编辑、可交互的3D世界模型提供了一条实用路径。

**来源信息**
- **来源**：HuggingFace Daily Papers（社区热门论文）
- **分类**：论文
- **发布时间**：2026-05-18 08:00（北京时间）
- **原文**：[打开原文](https://huggingface.co/papers/2605.15843)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

本文提出WorldAct框架，旨在解决当前基于生成式场景合成的3D世界建模系统生成的静态、可编辑性有限且缺乏物理交互能力的3D环境问题。该框架通过多模态智能体引导场景分解、重建物体级网格，并通过3D修复恢复背景，最终得到的场景支持物体级编辑、碰撞感知操作和具身任务执行。

答案说明

WorldAct是一个旨在解决现有3D世界生成系统缺乏交互性问题的框架。它通过多模态智能体对场景进行分解，识别并重建可操作的物体，同时修复背景，从而生成支持编辑、物理交互和具身任务的、以对象为中心的3D场景。

这篇帖子回答的问题

WorldAct框架解决了当前3D世界建模系统（如Marble）的什么问题？
WorldAct框架如何实现从静态3D世界到可交互场景的转换？

核心观点

本文提出WorldAct框架，旨在解决当前基于生成式场景合成的3D世界建模系统生成的静态、可编辑性有限且缺乏物理交互能力的3D环境问题。该框架通过多模态智能体引导场景分解、重建物体级网格，并通过3D修复恢复背景，最终得到的场景支持物体级编辑、碰撞感知操作和具身任务执行。

FAQ

Q: WorldAct框架的核心创新是什么？: A: 核心创新是通过一个多模态智能体引导场景分解，识别并重建可操作的物体，同时修复背景，从而将静态的生成式3D世界转换为支持物理交互和编辑的场景。
Q: WorldAct生成的场景相比原始生成场景有什么优势？: A: 根据帖子中的实验表明，该框架使交互场景比原始生成场景更丰富。

关键实体

WorldAct
Marble
HuggingFace Daily Papers