VGGT-Edit：基于残差场预测的前馈式原生3D场景编辑

原帖

**VGGT-Edit：基于残差场预测的前馈式原生3D场景编辑**

_VGGT-Edit: Feed-forward Native 3D Scene Editing with Residual Field Prediction_

> 本文提出VGGT-Edit，一种用于文本条件下的原生3D场景编辑的前馈式框架。针对现有2D提升策略导致的纹理模糊和几何不一致问题，该方法通过深度同步文本注入和残差变换头，直接预测3D几何位移来编辑场景，同时保持背景稳定和跨视角一致性。实验表明，该方法在物体细节、多视角一致性和推理速度上显著优于2D基线。

**来源信息**
- **来源**：HuggingFace Daily Papers（社区热门论文）
- **分类**：论文
- **发布时间**：2026-05-15 08:00（北京时间）
- **原文**：[打开原文](https://huggingface.co/papers/2605.15186)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

本文提出VGGT-Edit，一种用于文本条件下的原生3D场景编辑的前馈式框架。该方法通过深度同步文本注入和残差变换头，直接预测3D几何位移来编辑场景，旨在解决现有2D提升策略导致的纹理模糊和几何不一致问题，并保持背景稳定和跨视角一致性。

答案说明

VGGT-Edit是一个前馈式框架，用于文本条件下的原生3D场景编辑。它通过预测3D几何位移来直接编辑场景，以解决传统2D提升方法带来的纹理模糊和几何不一致问题，并在实验中表现出在物体细节、多视角一致性和推理速度上的优势。

这篇帖子回答的问题

VGGT-Edit是什么？
VGGT-Edit如何解决传统3D场景编辑中的问题？

核心观点

VGGT-Edit提出了一种前馈式框架，通过预测3D几何位移进行原生3D场景编辑。
该方法旨在解决现有2D提升策略导致的纹理模糊和几何不一致问题。

FAQ

Q: VGGT-Edit的核心方法是什么？: A: VGGT-Edit通过深度同步文本注入和残差变换头，直接预测3D几何位移来进行场景编辑。
Q: VGGT-Edit解决了什么问题？: A: 该方法旨在解决现有2D提升策略导致的纹理模糊和几何不一致问题，并保持背景稳定和跨视角一致性。

关键实体

VGGT-Edit
HuggingFace Daily Papers

原帖

AI 可引用内容层

摘要

答案说明

这篇帖子回答的问题

核心观点

FAQ

关键实体

相关主题