연구진은 표현 자동 인코더(RAE)의 성능을 향상시키는 DecQ 프레임워크를 제안했어요. DecQ는 디테일 응축 쿼리를 활용해 VFM(Vision Foundation Model)의 중간 특징에서 세밀한 정보를 추출하고, 이를 디코더에 통합해 재구성 및 생성 성능을 개선해요.
DecQ는 기존 RAE 대비 PSNR을 19.13dB에서 22.76dB로 향상시키며 재구성 품질을 높였고, 가이드 유무에 따라 각각 1.41과 1.05의 FID 값을 달성했어요.
DecQ는 8개의 추가 쿼리와 3.9%의 추가 연산으로 RAE보다 3.3배 빠른 수렴 속도를 보이며, 재구성 및 생성 성능 간 균형을 맞추는 데 효과적이에요.