Pulse · AI 뉴스

V-GRPO: 디노이징 생성 모델 온라인 강화 학습이 생각보다 쉽습니다.

arXiv cs.CV · 2026-04-26

연구진은 인간 선호도나 검증 가능한 보상에 맞춰 디노이징 생성 모델을 조정하는 것이 중요한 과제라고 밝혔어요.

V-GRPO는 ELBO 기반 서브로게이트를 GRPO 알고리즘과 통합하여 안정적이고 효율적인 온라인 강화 학습 방법을 제시했어요.

V-GRPO는 텍스트-이미지 합성에서 최고 성능을 달성하며 MixGRPO보다 2배, DiffusionNFT보다 3배 빠른 속도를 보여줬어요.

##강화학습##생성모델##이미지합성##V-GRPO##최적화
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기