연구진은 비디오 생성 평가 시 노이즈 환경과 VAE 디코딩 비용 문제를 해결하기 위해 PRISM을 제안했어요. PRISM은 가벼운 Query-based Aggregation 헤드를 활용해 노이즈 상태의 latent에서 선호도 신호를 디코딩해요. 놀랍게도 PRISM은 뛰어난 선호도 정확도를 달성하고, 초기 Best-of-$N$ 샘플링을 가능하게 해 계산 비용을 줄이고 비디오 품질을 향상시켰어요.
PRISM은 기존 방식과 달리 비디오 생성 과정의 노이즈를 활용해 선호도를 평가하며, 생성 성능과 평가 능력 간의 강한 상관관계를 보여줬어요. 이를 통해 비디오 백본 자체를 개선하는 데 활용할 수 있다는 점이 확인됐어요.
PRISM은 기존 방식보다 효율적인 비디오 생성 평가 방법을 제시하며, 향후 비디오 생성 기술 발전에 기여할 것으로 기대돼요.