최신 연구에 따르면 이미지 및 비디오 생성 모델이 LLM과 유사하게 시각적 이해 능력을 갖추고 있습니다. 연구진은 이미지 생성 훈련이 강력하고 일반적인 시각 표현을 학습하도록 하여 다양한 시각 작업에서 뛰어난 성능을 발휘하는 것을 확인했습니다. Vision Banana 모델은 기존 Nano Banana Pro 모델을 기반으로 시각 작업 데이터를 활용하여 SOTA 결과를 달성하며, 컴퓨터 비전 분야의 패러다임 전환을 예고합니다.