본 연구는 확산 모델에서 토크나이저가 잠재 공간을 정의하는 방식이 생성 모델링에 미치는 영향을 분석합니다. 잠재 공간의 일관성 있는 구조, 지역적 연속성, 전역적 의미를 핵심 속성으로 밝혀냈습니다. 기존 토크나이저보다 사전 정렬 오토인코더(PAE)를 통해 잠재 공간을 명시적으로 형성하는 것이 더 효과적임을 입증했습니다.
PAE는 VFM에서 파생된 정제된 사전과 교란 기반 정규화를 활용하여 잠재 공간의 구조, 연속성, 의미를 명시적인 학습 목표로 설정합니다. ImageNet 256x256 데이터셋에서 기존 토크나이저보다 학습 효율성과 생성 품질을 향상시켰습니다.
PAE는 동일한 학습 환경에서 최대 13배 빠른 수렴 속도를 달성하고 새로운 state-of-the-art gFID 1.03을 기록하며, 잠재 확산 모델에서 잠재 공간 조직의 중요성을 강조합니다.