연구진은 픽셀 공간에서 연속 토큰 AR(autoregressive) 방식으로 이미지를 생성하는 새로운 프레임워크 PRA(Parallel Rollout Approximation)를 제안했어요.
PRA는 저차원 중간 상태를 생성하고 픽셀 디코더로 매핑하여 픽셀-인, 픽셀-아웃 AR 인터페이스를 유지하며, 추론과 유사한 픽셀 입력을 생성하여 훈련과 추론 간의 격차를 줄여요.
PRA-L 모델은 511M 파라미터로 ImageNet-1K 생성에서 FID 1.94를 달성하며 픽셀 공간 AR 모델 중 최고 성능을 기록했어요.