본 연구는 장면을 개별 객체 수준의 부분으로 분해하여 새로운 개념에 대한 일반화를 가능하게 하는 객체 중심 표현의 잠재력을 활용하는 데 어려움을 지적합니다. 연구진은 표현 학습과 조립적 추론을 엄격하게 분리하는 새로운 패러다임을 도입하여 ViT의 패치 수준 의미론적 기하학을 활용합니다. 실험 결과, 이 접근 방식은 최고 수준의 새로운 개념 일반화와 최소한의 망각을 달성하여 표준 연속 학습 벤치마크에서 뛰어난 성능을 보였습니다.