연구진은 시각 생성 프레임워크를 텍스트 생성에 적용한 TextLDM을 제안하며, 이는 이미지와 비디오 생성, 텍스트 생성 모두를 위한 단일 아키텍처를 향한 발걸음입니다.
TextLDM은 Representation Alignment (REPA)를 통해 사전 훈련된 언어 모델과 잠재적 특징을 정렬하여 고품질의 연속적인 텍스트 표현을 얻는 데 중점을 둡니다.
OpenWebText2 데이터셋으로 처음부터 훈련된 TextLDM은 기존 확산 언어 모델보다 뛰어난 성능을 보이며 GPT-2와 동일한 환경에서 유사한 성능을 나타냈습니다.