연구진이 3D 장면을 객체 단위로 분해하는 새로운 프레임워크를 제안했어요. 이 프레임워크는 기존 방식과 달리 장면을 객체 중심의 3D 토큰 그룹으로 분해하여 재구성, 분할, 조작을 가능하게 해요.
각 토큰 그룹은 객체의 식별 정보를 담은 인스턴스 토큰과 주변의 기하학적, 시각적 정보를 담은 앵커 토큰으로 구성돼요. 이 두 가지 정보를 결합해 3D 가우시안 집합을 생성합니다.
새로운 방식은 기존 방식보다 객체 단위 분할 성능이 뛰어나고, 객체 제거, 이동, 삽입과 같은 편집 기능과 효율적인 3D 객체 검색을 지원합니다.