Pulse · AI 뉴스

픽셀부터 단어까지: 대규모 네이티브 통합 시각 모델 연구

NEO-ov · 2026-05-27

EvolvingLMMs Lab이 이미지 인코더와 언어 디코더를 분리하지 않고 시각과 언어를 통합 학습하는 네이티브 모델 NEO-ov를 공개했어요.

NEO-ov는 프레임 간, 픽셀-단어 대응 관계를 엔드투엔드 학습하여 기존 모델 대비 미세한 시각적 인지 능력에서 뛰어난 성능을 보여요.

연구팀은 NEO-ov의 구조 분석과 학습 레시피를 공개하여 향후 네이티브 멀티모달 모델 연구를 지원할 예정이에요.

##시각모델##멀티모달##NEO-ov##EvolvingLMMsLab

매일 핵심 AI 소식을 한국어로, 빠르게