연구진은 이미지 생성 시 VAE 의존성 문제를 해결하기 위해 Representation Forcing (RF) 기법을 제안했어요. RF는 모델이 시각적 표현을 예측하도록 하여 기존 VAE 기반 모델의 구조적 병목 현상을 제거합니다.
RF는 시각적 표현을 중간 토큰으로 예측하여 픽셀 확산을 가이드하며, 이미지 생성과 이해 모두에 긍정적인 영향을 미쳐 기존 모델 성능에 준하는 결과를 보여줘요.
이 연구는 외부 생성 잠재 공간 없이 엔드 투 엔드 통합형 다중 모드 모델 개발에 기여하며, 이미지 생성에서는 VAE 기반 모델과 동등한 성능, 이미지 이해에서는 더 나은 성능을 달성했어요.