연구진은 이미지 토크나이저 학습 시 재구성 능력과 모델 예측 가능성 간의 불일치를 분석했습니다. Tripartite Variational Consistency (TVC)를 활용하여 토크나이저 학습 과정에 분포 수준의 Prior-matching 신호를 추가했습니다. 이 신호는 Wasserstein-gradient-flow 업데이트를 통해 최적화됩니다.
토크나이저 학습 과정에서 보조 AR 모델을 활용하여 토크나이저의 현재 토큰 분포와 목표 AR Prior 간의 대비를 측정합니다. 이 과정은 두 AR 모델의 순방향 패스만 필요하며, 역전파는 수행되지 않습니다.
결과적으로 wAR-Tok 토크나이저는 CIFAR-10 및 ImageNet에서 AR 손실을 줄이고 생성 FID를 개선했습니다. 재구성 품질은 기존 방식과 유사한 수준을 유지합니다.