Qwen-Image-VAE-2.0은 높은 압축률에서도 재구성 정확도와 확산성을 크게 향상시킨 Variational Autoencoders(VAE) 제품군입니다.
Global Skip Connections(GSC) 및 확장된 잠재 채널을 특징으로 하는 개선된 아키텍처를 채택하고, 텍스트가 풍부한 시나리오에서 성능을 향상시키기 위해 합성 렌더링 엔진을 활용했습니다.
Qwen-Image-VAE-2.0은 공개 재구성 벤치마크에서 최고 수준의 재구성 성능을 달성했으며, 다운스트림 DiT 실험에서 기존 모델보다 빠른 수렴 속도를 보였습니다.