VPG는 autoregressive 이미지 및 비디오 생성 모델의 추론 성능을 개선하는 새로운 방법입니다. 모델이 생성한 프리픽스의 신뢰도를 강화하기 위해 손상된 프리픽스와 비교하는 방식으로 작동합니다. VAR, Infinity, InfinityStar 모델에 적용했을 때, 모델 재훈련 없이 FID 점수를 평균 0.36만큼 감소시켰습니다.
VPG는 기존 방식과 달리 외부 조건에 의존하지 않고, 모델 자체의 예측을 기반으로 가이드를 제공합니다. 이는 autoregressive 모델이 추론 시 스스로 생성한 프리픽스로부터 샘플링하는 과정에서 발생하는 exposure bias와 prefix drift 문제를 해결합니다.
VAR, Infinity, InfinityStar 모델에서 이미지 및 비디오 생성 성능을 향상시켰으며, 텍스트-이미지 및 텍스트-비디오 생성 벤치마크에서 더 나은 결과를 얻었습니다.