Pulse · AI 뉴스

AlphaGRPO: UMM의 자기 성찰적 다중 모드 생성을 위한 분해 가능한 검증 가능한 보상

AlphaGRPO · 2026-05-13

연구진은 GRPO(Group Relative Policy Optimization)를 AR-Diffusion Unified Multimodal Models(UMM)에 적용하여 다중 모드 생성 능력을 향상시키는 새로운 프레임워크 AlphaGRPO를 제안했습니다.

AlphaGRPO는 사용자의 의도를 추론하는 텍스트-이미지 생성 및 생성 결과의 불일치를 자율적으로 진단하고 수정하는 자기 성찰적 개선과 같은 고급 추론 작업을 수행합니다.

DVReward(Decompositional Verifiable Reward)는 복잡한 사용자 요청을 원자적이고 검증 가능한 질문으로 분해하여 신뢰성 있고 해석 가능한 피드백을 제공합니다.

##UMM##다중모드##강화학습

매일 핵심 AI 소식을 한국어로, 빠르게