연구진이 고해상도 이미지 편집을 위한 최초의 대규모 데이터셋 VINS-120K를 공개했어요. 이 데이터셋은 120,000개의 지침, 입력 이미지, 편집 이미지 세트로 구성되어 있으며, 각 이미지는 4K 이상의 해상도를 자랑해요.
VINS-120K는 시각적 품질, 지침 일치성, 심미적 정확성을 보장하기 위해 엄격한 다단계 필터링 과정을 거쳤으며, 고주파 텍스처 디테일을 모델링하는 데 어려움을 해결하기 위해 개발됐어요.
연구진은 VINS-120K를 기반으로 사전 학습된 모델을 고해상도 환경으로 확장하는 전략을 개발하고, 다양한 편집 유형을 평가하기 위한 벤치마크 VINS-4KEval도 함께 공개했어요.