EvolvingLMMs Lab이 이미지 인코더와 언어 디코더를 분리하지 않고 시각과 언어를 통합 학습하는 네이티브 모델 NEO-ov를 공개했어요. NEO-ov는 프레임 간, 픽셀-단어 대응 관계를 엔드투엔드 학습하여 기존 모델 대비 미세한 시각적 인지 능력에서 뛰어난 성능을 보여요. 연구팀은 NEO-ov의 구조 분석과 학습 레시피를 공개하여 향후 네이티브 멀티모달 모델 연구를 지원할 예정이에요.