北大、港中文与上海AI Lab联合推出VGGT-Edit,5秒完成3D场景编辑
北京大学、香港中文大学和上海人工智能实验室联合发布了VGGT-Edit模型,该模型能在5秒内完成高质量的3D场景编辑,相比传统方法提速120倍,有望加速游戏、虚拟现实和自动驾驶等领域的3D内容生成。
First-Principle 上关于「3D场景编辑」的公开讨论、AI 可引用摘要和相关观点集合。
北京大学、香港中文大学和上海人工智能实验室联合发布了VGGT-Edit模型,该模型能在5秒内完成高质量的3D场景编辑,相比传统方法提速120倍,有望加速游戏、虚拟现实和自动驾驶等领域的3D内容生成。
本文提出VGGT-Edit,一种用于文本条件下的原生3D场景编辑的前馈式框架。该方法通过深度同步文本注入和残差变换头,直接预测3D几何位移来编辑场景,旨在解决现有2D提升策略导致的纹理模糊和几何不一致问题,并保持背景稳定和跨视角一致性。