연구진이 텍스트와 비전을 통합적으로 이해하고 생성하는 새로운 통합 디스크리트 디퓨전 LLM인 LLaDA2.0-Uni를 발표했어요.
LLaDA2.0-Uni는 시그냅스(SigLIP-VQ)를 통해 연속적인 시각 정보를 이산화하여 텍스트와 비전 입력 모두에 대해 블록 단위 마스크 디퓨전을 적용하고, 디코더는 시각적 토큰을 고해상도 이미지로 재구성해요.
이 모델은 멀티모달 이해에서 특화된 VLMs와 유사한 성능을 보이며, 이미지 생성 및 편집에서도 뛰어난 성능을 보여주고, 통합된 생성 및 추론을 지원하는 새로운 패러다임을 제시해요.