Nemotron-Labs-Diffusion-Image는 고해상도 텍스트-이미지 합성을 위한 마스크 디스크리트 디퓨전 모델(MDM)입니다.
기존 MDM의 한계를 극복하기 위해 토큰 편집 메커니즘을 도입하여 이미 공개된 토큰을 수정하고, Grouped Cross-Entropy(GCE) 객관 함수를 통해 학습 효율성을 높였습니다.
GenEval에서 0.90, DPG에서 86.9, HPSv3에서 10.76의 점수를 기록하며 이미지 충실도를 향상시켰습니다.