연구진은 텍스트 지시와 시각적 프롬프트의 장점을 결합한 'Text-Vision Co-Instructed Image Editing (TV-Edit)' 프레임워크를 제안했어요.
TV-Edit는 텍스트 지시를 의미 파악으로, 시각적 지시(드래그·포인트)를 공간 안내로 활용하여 이미지 조작의 정확성과 의미 충실도를 높여요.
23,000개 이상의 텍스트·시각 지시 페어 데이터셋을 구축하고, TV-Edit-Bench 벤치마크를 통해 성능을 검증하여 기존 방식보다 뛰어난 결과물을 얻었어요.