연구진은 autoregressive (AR) 이미지 생성 모델의 재구성-생성 격차를 해소하는 방법인 Prologue를 제안했어요.
Prologue는 시각적 토큰 시퀀드 앞에 작은 프로로그 토큰을 생성하며, 이 토큰은 AR 교차 엔트로피 (CE) 손실로만 학습돼 재구성 품질에 영향을 주지 않아요.
ImageNet 256x256 데이터셋에서 Prologue-Large는 표준 AR 모델로 경쟁력 있는 rFID 0.99 및 gFID 1.46을 달성했어요.