Vision Foundation Models (VFM)를 활용해 이미지 생성용 범용 토크나이저 VFMTok을 개발했어요.
VFMTok은 기존 방식 대비 합성 품질을 향상시키고 토큰 효율성을 극대화하며, ImageNet class-conditional synthesis에서 gFID 1.36을 달성했어요.
VFM 토크나이저 설계 시 self-supervised learning 목표가 중요하며, global contrastive learning과 latent masked image modeling을 함께 사용한 VFM이 최적의 성능을 낸다는 사실을 발견했어요.