연구진이 3D 장면을 객체 단위로 분해하는 새로운 프레임워크를 제안했어요. 이 프레임워크는 기존 방식과 달리 장면을 객체 중심의 3D 토큰 그룹으로 직접 분해합니다. 각 토큰 그룹은 객체의 식별 정보를 담은 인스턴스 토큰과 주변 형상과 색상을 담은 앵커 토큰으로 구성되어, 3D 가우시안 집합으로 디코딩됩니다. 이 방식은 기존 방식보다 객체 단위 분할 성능이 뛰어나고, 객체 편집 및 3D 인스턴스 검색을 효율적으로 수행할 수 있습니다.