ShareLab에서 단일 시각 토크나이저를 활용한 통합 멀티모달 모델 UniAR을 발표했어요. UniAR은 기존 모델과 달리 이해와 생성 간의 표현 공간을 분리하지 않고 공유 컨텍스트를 활용해 시각 토큰을 직접 해석합니다.
멀티레벨 특징 융합과 비트 단위 양자화 방식을 적용해 고해상도 이미지를 생성하고, 기존 모델보다 시각 시퀀스 길이를 줄여 생성 속도를 높였습니다.
이미지 생성 및 편집 성능에서 최고 수준을 달성했으며, 멀티모달 이해 벤치마크에서도 경쟁력을 보였습니다. 프로젝트 페이지는 GitHub에서 확인할 수 있어요.