연구진은 기존 레이아웃 기반 이미지 생성 모델의 객체 가림새 문제점을 지적하며 SA-Z 데이터셋을 구축했어요. SA-Z는 객체 가림새 순서와 픽셀 단위 주석을 포함한 대규모 데이터셋입니다. OcclusionFormer는 새로운 Diffusion Transformer 프레임워크로, 객체 분리 및 볼륨 렌더링을 통해 Z-순서 우선순위를 명시적으로 모델링합니다.
쿼리 기반 정렬 손실을 도입하여 개별 객체의 공간적 정확도를 높이고 의미론적 일관성을 강화했어요. 이를 통해 겹치는 영역의 모호성을 줄이고, 올바른 가림새 의존성을 적용하며 구조적 완전성을 유지합니다.
OcclusionFormer는 다양한 장면에서 정확도를 크게 향상시켜 객체 가림새 문제를 해결하는 효과적인 방법으로 평가받고 있습니다.