최근 이미지 편집 모델은 자연어 지시에 따라 이미지 영역을 수정하며, 이는 시각적 의미론적 정렬을 암시합니다. 연구 결과, 이미지 변환이 발생하기 전 초기 denoising 단계에서 모델 내부 표현에 강력한 전경-배경 분리 현상이 나타납니다. 연구진은 이 insight를 활용하여 사전 훈련된 이미지 편집 모델의 중간 표현을 활용하는 훈련이 필요 없는 프레임워크를 제안하여 제로샷 참조 이미지 분할을 달성했습니다.