연구진은 오토리거시브 언어 모델(ARLM)을 디퓨전 언어 모델(DLM)로 변환하는 방법을 연구했어요.
기존 방식의 문제점을 해결하기 위해 온-정책 증류(OPD)를 활용한 온-정책 디퓨전 언어 모델(OPDLM)을 제안했어요. ARLM이 자체적으로 생성한 경로에 대해 기존 모델의 지식을 증류하는 방식이에요.
실험 결과, OPDLM은 기존 방식보다 **7,000배** 적은 토큰으로 훈련하면서도 다양한 작업에서 뛰어난 성능을 보였으며, DLM 사전 훈련 비용을 절감할 수 있었어요.