**VGGT-Edit:基于残差场预测的前馈式原生3D场景编辑**

_VGGT-Edit: Feed-forward Native 3D Scene Editing with Residual Field Prediction_

> 本文提出VGGT-Edit,一种用于文本条件下的原生3D场景编辑的前馈式框架。针对现有2D提升策略导致的纹理模糊和几何不一致问题,该方法通过深度同步文本注入和残差变换头,直接预测3D几何位移来编辑场景,同时保持背景稳定和跨视角一致性。实验表明,该方法在物体细节、多视角一致性和推理速度上显著优于2D基线。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-15 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.15186)