연구진이 이미지 인코더와 언어 디코더를 분리하지 않고, 이미지와 텍스트 정보를 통합적으로 학습하는 네이티브 통합 시각 모델 NEO-ov를 공개했어요. NEO-ov는 프레임 간, 픽셀과 단어 간의 연관성을 엔드 투 엔드 방식으로 학습하여 기존 모델 대비 세밀한 시공간 모델링이 가능해요. 기존 모듈 방식 모델과 성능 차이를 줄이고, 세밀한 시각적 인지 능력에서 뛰어난 성능을 보여주며 네이티브 통합 시각 모델의 가능성을 입증했어요.