Pulse · AI 뉴스

GDSD: 확산 언어 모델의 역학적 노이즈 제거 자가 증류

LLaDA · 2026-05-28

연구진은 강화 학습(RL)을 활용하여 확산 언어 모델(dLLM)의 정책(노이즈 제거기)을 개선하는 방법인 GDSD(Guided Denoiser Self-Distillation)를 제안했어요.

GDSD는 기존 ELBO 기반 방법의 훈련-추론 불일치 문제를 해결하기 위해, 역-KL 정규화된 RL의 최적점을 활용한 교사-학생 모델을 통해 dLLM의 노이즈 제거기를 직접 증류해요.

LLaDA-8B 및 Dream-7B 모델을 활용한 실험 결과, GDSD는 기존 방법 대비 최대 19.6%의 테스트 정확도 향상을 달성하며 안정적인 훈련 보상을 제공했어요.

##강화학습##확산언어모델##자가증류##LLaDA##Dream7B
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기