알리바바가 이미지 재구성 및 확산 모델 학습에 최적화된 고압축 변이 자동 인코더(VAE) 'Qwen-Image-VAE-2.0' 기술 보고서를 발표했습니다.
Qwen-Image-VAE-2.0는 전역 건너뛰기 연결(GSC) 및 확장된 잠재 채널을 특징으로 하는 개선된 아키텍처를 채택하여 재구성 성능을 향상시켰습니다.
새로운 벤치마크 OmniDoc-TokenBench를 통해 텍스트가 풍부한 이미지 재구성에 대한 성능을 평가했으며, 기존 모델 대비 뛰어난 성능을 보였습니다.
Qwen-Image-VAE-2.0는 고압축, 우수한 재구성, 뛰어난 확산성을 갖춘 선도적인 모델로 자리매김했습니다.