연구진이 마스크 이미지 모델링(MIM)과 정규화 흐름(NF)을 결합한 새로운 프레임워크 MIMFlow를 제안했어요. NF의 용량 부족 문제를 해결하고, 이미지의 전역 구조적 일관성을 우선시하도록 설계됐어요.
MIMFlow는 VAE 인코더를 활용해 마스크 이미지에서 의미론적 잠재 변수를 추론하고, NF는 단순화된 의미론적 다양체를 모델링하고, 전문 디코더는 고주파 합성 담당해요.
ImageNet 256x256 데이터셋에서 MIMFlow-L은 71.3%의 선형 프로빙 정확도와 2.50의 FID를 달성하며, 기존 NF 모델보다 32.8%의 성능 향상을 보였어요.