UniDDT는 텍스트와 이미지 이해 및 생성을 통합하는 새로운 모델입니다. 기존 모델의 학습 충돌, 공간 불일치, 데이터 의존성 문제를 해결하기 위해 개발됐어요.
Noisy ViT 인코더와 LLM을 활용해 이미지 생성과 이해를 위한 통일된 의미 인코딩을 구현하고, 분리된 디퓨전 디코더를 사용해 디퓨전 디코딩과 텍스트 디코딩을 분리했어요.
UniDDT는 GenEval 0.87, DPG 86.9, MME 1699.5, SEEDbench 76.5 등 다양한 벤치마크에서 우수한 성능을 보여줬어요.
텍스트·이미지 이해·생성 모델의 성능 향상과 확장성을 위한 새로운 접근 방식이라고 평가할 수 있습니다.