연구진은 복잡한 시각적 지시문 처리의 어려움을 해결하기 위해 이미지와 문장을 통합하는 생성 모델 INSET을 제안했습니다. INSET은 이미지를 텍스트 지시문의 어휘 내에 통합하여 시각적 특징을 의미론적 위치에 직접 배치하고, 트랜스포머의 문맥적 근접성을 활용합니다. 연구진은 1500만 개의 고품질 interleaved 샘플을 합성하여 INSET을 학습시켰으며, InterleaveBench 평가에서 기존 방법보다 우수한 성능을 보였습니다.