연구진은 사전 학습된 텍스트-이미지 흐름 모델을 양방향 비전-언어 생성기로 업그레이드하는 FullFlow라는 새로운 방법을 제시했습니다. FullFlow는 LoRA 어댑터와 경량 텍스트 헤드를 훈련하여 기존 모델의 강력한 이미지 우선순위를 유지합니다.
FullFlow는 이미지와 텍스트에 대해 별도의 타임스텝을 사용하여 2차원 생성 공간에서 경로 선택 방식으로 추론을 가능하게 하여 텍스트→이미지, 이미지→텍스트, 공동 샘플링, 부분 텍스트 예측을 지원합니다.
Stable Diffusion 3 (SD3)에서 FullFlow는 기존 방식 대비 텍스트→이미지 FID 점수를 30% 향상시키고 이미지→텍스트 CIDEr 점수를 50배 향상시켰으며, VRAM 사용량을 줄이고 처리량을 8배 높였습니다.