연구진은 인간 선호도나 검증 가능한 보상에 맞춰 디노이징 생성 모델을 조정하는 것이 중요한 과제라고 밝혔어요. V-GRPO는 ELBO 기반 서브로게이트를 GRPO 알고리즘과 통합하여 안정적이고 효율적인 온라인 강화 학습 방법을 제시했어요. V-GRPO는 텍스트-이미지 합성에서 최고 성능을 달성하며 MixGRPO보다 2배, DiffusionNFT보다 3배 빠른 속도를 보여줬어요.