STARFlow2는 텍스트와 이미지를 통합적으로 생성하기 위해 언어 모델과 정규화 흐름을 융합한 새로운 모델입니다. 기존 방식의 구조적 불일치를 해결하기 위해, 텍스트와 이미지 생성을 동일한 구조로 통합하는 것을 목표로 합니다.
STARFlow2는 사전 훈련된 VLM 스트림과 TarFlow 스트림을 수직으로 겹쳐서 구성되었으며, 깊고 얕은 흐름 설계와 통합 FAE 잠재 공간을 활용합니다.
실험 결과, STARFlow2는 이미지 생성 및 멀티모달 이해 벤치마크에서 뛰어난 성능을 보이며, 정규화 흐름이 통합 멀티모달 모델링의 기반이 될 수 있음을 입증했습니다.