Pulse · AI 뉴스

텍스트·비전 공동 지시 기반 이미지 편집 방식 연구

TV-Edit · 2026-06-15

연구진은 텍스트 지시와 시각적 프롬프트의 장점을 결합한 'Text-Vision Co-Instructed Image Editing (TV-Edit)' 프레임워크를 제안했어요.

TV-Edit는 텍스트 지시를 의미 파악으로, 시각적 지시(드래그·포인트)를 공간 안내로 활용하여 이미지 조작의 정확성과 의미 충실도를 높여요.

23,000개 이상의 텍스트·시각 지시 페어 데이터셋을 구축하고, TV-Edit-Bench 벤치마크를 통해 성능을 검증하여 기존 방식보다 뛰어난 결과물을 얻었어요.

##이미지편집##AI##연구

매일 핵심 AI 소식을 한국어로, 빠르게