연구진은 토큰 간 상관 관계를 제대로 파악하지 못해 샘플링 품질과 처리 속도 간의 균형을 맞추기 어려운 확산 언어 모델 문제를 해결하기 위해 DiLaDiff를 제안했어요.
DiLaDiff는 연속적인 잠재 공간, 잠재 확산 모델, 일관성 모델의 세 가지 구성 요소로 이루어져 있으며, 기존 마스크 확산 언어 모델에서 파인튜닝된 오토인코더로 의미론적 기능을 학습하는 연속적인 잠재 공간을 활용해요.
일관성 증류를 통해 연속 확산의 계산 오버헤드를 줄여 잠재를 생성하는 데 걸리는 시간을 줄일 수 있으며, 증류 없이도 잠재 가이드 확산 모델이 마스크 확산 기준 모델보다 성능이 뛰어나다는 것을 확인했어요.