연구진은 텍스트 기반으로 3D 장면을 편집하는 새로운 프레임워크 VGGT-Edit을 제안했어요. 기존 2D 편집 방식의 문제점을 해결하기 위해 3D 공간에서 직접 편집하는 방식으로, 더 선명한 디테일과 일관성을 확보했어요.
VGGT-Edit은 텍스트 지침을 3D 공간의 위치와 동기화하여 안정적인 지침 적용을 보장하고, 3D 기하학적 변위를 직접 예측하여 배경을 유지하면서 장면을 변형해요.
연구진은 VGGT-Edit의 성능을 검증하기 위해 DeltaScene 데이터셋을 구축했으며, 기존 방식 대비 더 높은 품질의 결과를 보여주며 빠른 추론 속도를 제공해요.