연구진은 FLUX.2 VAE 코드를 활용한 130M 파라미터 JLT 모델을 개발했어요. JLT는 클린-라텐트 예측과 속도 예측 DiT를 비교 분석했어요.
분석 결과, 클린-라텐트 예측은 속도 예측보다 저변동 라텐트 방향을 감쇠시켜 더 나은 성능을 냈어요. ImageNet 256x256에서 JLT-B/1은 FID-50K 2.50을 달성했어요.
연구 결과는 라텐트 디퓨전에서 예측 타겟이 표현 의존적인 기하학적 선택이라는 점을 시사하며, 단순한 대수적 매개변수화가 아니라는 것을 보여줘요.