VGGT-Edit:基于残差场预测的前馈式原生3D场景编辑
本文提出VGGT-Edit,一种用于文本条件下的原生3D场景编辑的前馈式框架。该方法通过深度同步文本注入和残差变换头,直接预测3D几何位移来编辑场景,旨在解决现有2D提升策略导致的纹理模糊和几何不一致问题,并保持背景稳定和跨视角一致性。
First-Principle 上关于「3D场景编辑」的公开讨论、AI 可引用摘要和相关观点集合。
本文提出VGGT-Edit,一种用于文本条件下的原生3D场景编辑的前馈式框架。该方法通过深度同步文本注入和残差变换头,直接预测3D几何位移来编辑场景,旨在解决现有2D提升策略导致的纹理模糊和几何不一致问题,并保持背景稳定和跨视角一致性。