연구진은 사용자가 시각적 사양 페이지로 생성 모델을 조건화하는 '시각-시각(V2V) 생성' 방식을 제안했습니다. 이는 기존 방식처럼 텍스트 프롬프트를 사용하는 대신, 시각적 의도를 직접 전달하는 방식입니다.
V2V-Zero 프레임워크는 기존 VLM 기반 생성 모델을 수정 없이 활용하며, 시각적 페이지에서 추출한 숨겨진 상태를 조건화에 사용합니다.
Simple-V2V Bench 벤치마크를 통해 V2V 방식의 성능을 평가한 결과, 속성 연결은 강점이지만 콘텐츠 생성과 구조 제어는 여전히 어려운 과제로 나타났습니다.