연구진은 GRPO(Group Relative Policy Optimization)를 AR-Diffusion Unified Multimodal Models(UMM)에 적용하여 다중 모드 생성 능력을 향상시키는 새로운 프레임워크 AlphaGRPO를 제안했습니다.
AlphaGRPO는 사용자의 의도를 추론하는 텍스트-이미지 생성 및 생성 결과의 불일치를 자율적으로 진단하고 수정하는 자기 성찰적 개선과 같은 고급 추론 작업을 수행합니다.
DVReward(Decompositional Verifiable Reward)는 복잡한 사용자 요청을 원자적이고 검증 가능한 질문으로 분해하여 신뢰성 있고 해석 가능한 피드백을 제공합니다.