IDEAL은 사전 훈련된 비전 기반 모델(VFM)을 활용한 표현 자동 인코더(RAE)의 재구성 품질을 개선하는 새로운 프레임워크입니다. IDEAL은 얕은 VFM 특징과 깊은 VFM 특징을 함께 정렬하여 이산 시각적 토큰이 시각적 충실도와 풍부한 의미를 모두 보존하도록 합니다. IDEAL은 ImageNet에서 0.61의 rFID를 달성하여 이전 최고 성능보다 0.28 향상되었으며, 자기 회귀 이미지 생성에서 1.89의 gFID를 기록했습니다.