InstanceControl은 인스턴스 레이블 없이 복잡한 다중 인스턴스 장면을 제어하는 새로운 생성 방법입니다. 기존 방법의 한계를 극복하기 위해 Vision-Language Model(VLM)을 활용해 텍스트 프롬프트와 시각적 조건 간의 인스턴스 수준 대응 관계를 설정합니다. 예측된 마스크 노이즈를 줄이기 위해 적응형 마스크 정제 전략을 도입하여 생성 과정에서 마스크를 동적으로 개선합니다.
VLM은 텍스트 프롬프트의 인스턴스 설명을 파악하고 시각적 조건에 따라 인스턴스 마스크를 예측합니다. 실험 결과, InstanceControl은 기존 방법보다 우수한 선명도와 정확한 인스턴스 수준 제어를 달성했습니다.
InstanceControl은 기존 방식의 노동 집약적인 인스턴스 레이블링 필요성을 없애 복잡한 이미지 생성 제어의 새로운 가능성을 제시합니다. 이 기술은 이미지 생성 분야의 효율성을 높이고 다양한 창작 활동에 활용될 수 있습니다.