연구진은 FLUX.2 VAE 코드를 활용한 130M 파라미터 JLT 모델을 개발했어요. JLT는 클린-라텐트 예측 방식이 속도 예측 방식보다 더 효과적임을 보여줬어요.
클린-라텐트 예측은 라텐트 공간에서 저변동 방향을 감쇠시키는 반면, 속도 예측은 이를 증폭시키는 경향이 있어요. ImageNet 256x256에서 JLT-B/1은 FID-50K 2.50을 달성했어요.
JLT 연구 결과는 라텐트 확산 모델에서 예측 타겟이 표현 의존적인 기하학적 선택이라는 점을 시사해요.