연구진은 텍스트-이미지 모델에서 프롬프트 토큰 시퀀스 공간의 비정형성을 지적했어요. Token-to-Token 정렬 프레임워크를 제안하여 프롬프트 토큰 간의 명시적인 의미 대응 관계를 설정했어요. 구조적 정렬과 임베딩 수준 정렬 단계를 거쳐 텍스트 임베딩 공간의 연속적인 의미 구조를 활용해 이미지 혼합 및 연속 편집 가능.