연구진이 확산 LLM(dLLM)에 최적화된 새로운 자기 증류 프레임워크 d-OPSD를 개발했어요. 기존 방식의 한계를 극복하기 위해 자기 생성 답변을 활용하여 '자기 미래 경험'으로부터 학습하도록 설계됐어요.
d-OPSD는 토큰 레벨이 아닌 스텝 레벨의 감독을 통해 dLLM의 반복적인 노이즈 제거 과정과 일치하며, RLVR 및 SFT 기반 모델보다 우수한 성능을 보여줬어요.
연구진은 d-OPSD가 RLVR의 약 10% 정도의 최적화 단계만으로도 효과를 낼 수 있음을 확인했으며, GitHub에서 관련 코드를 공개했어요.