연구진은 강화 학습(RL)을 활용하여 확산 언어 모델(dLLM)의 정책(노이즈 제거기)을 개선하는 방법인 GDSD(Guided Denoiser Self-Distillation)를 제안했어요.
GDSD는 기존 ELBO 기반 방법의 훈련-추론 불일치 문제를 해결하기 위해, 역-KL 정규화된 RL의 최적점을 활용한 교사-학생 모델을 통해 dLLM의 노이즈 제거기를 직접 증류해요.
LLaDA-8B 및 Dream-7B 모델을 활용한 실험 결과, GDSD는 기존 방법 대비 최대 19.6%의 테스트 정확도 향상을 달성하며 안정적인 훈련 보상을 제공했어요.