언어 디퓨전 모델이 훈련 데이터를 언제 암기하고, 진정한 생성 단계를 어떻게 정량적으로 평가할 수 있는지 연구했어요. 연구 결과, Uniform-based Discrete Diffusion Models (UDDMs)는 연상 기억처럼 작동하며, 창의적인 능력도 갖추고 있어요. 훈련 데이터셋 크기에 따라 훈련 데이터 암기에서 일반화로의 전환이 일어나며, 조건부 엔트로피를 통해 이 전환을 감지할 수 있어요.