Pulse · AI 뉴스

픽셀부터 단어까지: 대규모 네이티브 통합 시각 모델 연구

NEO-ov · 2026-05-28

연구진이 이미지 인코더와 언어 디코더를 분리하지 않고, 이미지와 텍스트 정보를 통합적으로 학습하는 네이티브 통합 시각 모델 NEO-ov를 공개했어요.

NEO-ov는 프레임 간, 픽셀과 단어 간의 연관성을 엔드 투 엔드 방식으로 학습하여 기존 모델 대비 세밀한 시공간 모델링이 가능해요.

기존 모듈 방식 모델과 성능 차이를 줄이고, 세밀한 시각적 인지 능력에서 뛰어난 성능을 보여주며 네이티브 통합 시각 모델의 가능성을 입증했어요.

##시각모델##AI연구##멀티모달

매일 핵심 AI 소식을 한국어로, 빠르게