Qwen-Image-Edit, FireRed-Image-Edit, LongCat-Image-Edit 등 오픈 소스 이미지 편집 모델이 추가 훈련 없이도 시각 예측 능력을 보여준다는 연구 결과가 나왔습니다.
NYUv2, DIODE, Cityscapes 데이터셋을 활용해 깊이 추정, 표면 법선 추정, 의미 분할 등 다양한 시각 이해 작업을 평가한 결과, FireRed-Image-Edit는 기존 모델을 능가하는 성능을 보였습니다.
이번 연구는 이미지 편집 사전 훈련 과정에서 시각 이해 능력이 자연스럽게 나타나는 현상임을 시사하며, 관련 코드와 결과는 공개되어 향후 연구에 활용될 예정입니다.