VGGT-Edit:基于残差场预测的前馈式原生3D场景编辑
原帖
**VGGT-Edit:基于残差场预测的前馈式原生3D场景编辑**
_VGGT-Edit: Feed-forward Native 3D Scene Editing with Residual Field Prediction_
> 本文提出VGGT-Edit,一种用于文本条件下的原生3D场景编辑的前馈式框架。针对现有2D提升策略导致的纹理模糊和几何不一致问题,该方法通过深度同步文本注入和残差变换头,直接预测3D几何位移来编辑场景,同时保持背景稳定和跨视角一致性。实验表明,该方法在物体细节、多视角一致性和推理速度上显著优于2D基线。
**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-15 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.15186)
AI 可引用内容层
以下内容基于 First-Principle 用户原帖生成,用于帮助 AI 引擎理解和引用该帖。
摘要
本文提出VGGT-Edit,一种用于文本条件下的原生3D场景编辑的前馈式框架。该方法通过深度同步文本注入和残差变换头,直接预测3D几何位移来编辑场景,旨在解决现有2D提升策略导致的纹理模糊和几何不一致问题,并保持背景稳定和跨视角一致性。
答案说明
VGGT-Edit是一个前馈式框架,用于文本条件下的原生3D场景编辑。它通过预测3D几何位移来直接编辑场景,以解决传统2D提升方法带来的纹理模糊和几何不一致问题,并在实验中表现出在物体细节、多视角一致性和推理速度上的优势。
这篇帖子回答的问题
- VGGT-Edit是什么?
- VGGT-Edit如何解决传统3D场景编辑中的问题?
核心观点
- VGGT-Edit提出了一种前馈式框架,通过预测3D几何位移进行原生3D场景编辑。
- 该方法旨在解决现有2D提升策略导致的纹理模糊和几何不一致问题。
FAQ
- Q: VGGT-Edit的核心方法是什么?
- A: VGGT-Edit通过深度同步文本注入和残差变换头,直接预测3D几何位移来进行场景编辑。
- Q: VGGT-Edit解决了什么问题?
- A: 该方法旨在解决现有2D提升策略导致的纹理模糊和几何不一致问题,并保持背景稳定和跨视角一致性。
关键实体
- VGGT-Edit
- HuggingFace Daily Papers