연구진은 이미지 생성 모델의 인터리브 생성(텍스트-이미지 시퀀스) 능력을 향상시키는 InterleaveThinker를 공개했어요.
InterleaveThinker는 계획 에이전트와 비평 에이전트를 활용하여 기존 이미지 생성 모델에 인터리브 생성 기능을 부여하는 멀티 에이전트 파이프라인이에요.
InterleaveThinker는 Nano Banana나 GPT-5와 유사한 성능을 보이며, FLUX.2-klein과 같은 추론 기반 벤치마크에서도 성능 향상을 이끌어냈어요.