Zlab-princeton이 3B 파라미터의 텍스트-이미지 모델 i1-3B를 공개했어요. 이 모델은 GenEval, DPG-Bench, PRISM, CVTG-2K, LongText-Bench에서 경쟁력 있는 성능을 보여요.
i1-3B는 XL/2 크기의 LightningDiT 백본과 T5Gemma-2B 텍스트 인코더, FLUX.2 VAE를 사용했어요. 12개의 공개 데이터셋과 Qwen3-VL-30B-A3B로 생성된 긴 합성 캡션을 활용해 학습했어요.
연구팀은 모델, 데이터, 코드, 평가 결과를 모두 공개하여 향후 연구를 지원할 계획이에요.