ByteDance가 텍스트-이미지 모델 'Cola DLM'의 Hugging Face 체크포인트를 공개했어요. 이 모델은 텍스트 VAE와 DiT(Diffusion Transformer)를 결합한 연속 잠재 확산 방식(Continuous Latent Diffusion)을 사용합니다.
Cola DLM은 텍스트를 연속적인 잠재 시퀀스로 매핑하고, 이를 토큰으로 다시 디코딩하는 방식으로 작동하며, 2000 EFLOPs 체크포인트에 해당하는 가중치를 제공합니다.
OLMo 2 토크나이저를 사용하며, pad 토큰 ID는 100277, EOS 토큰 ID는 100257, im_end 토큰 ID는 100265로 설정되어 있습니다.