Pulse · AI 뉴스

시각 정보에 더욱 집중하는 자기 진화형 다중 모드 대형 모델

Qwen · 2026-06-26

연구진은 시각적 추론 능력을 향상시키는 자기 진화형 다중 모드 모델(LMM)의 한계, 즉 시각 정보 부족 문제를 지적했어요.

VISE(Visual Invariance Self-Evolution)라는 새로운 프레임워크를 제안하여 모델이 시각적 조건을 직접 규제하도록 했어요.

기하학적 불변성 보상과 의미론적 불변성 보상을 통해 시각 정보에 대한 집중도를 높였으며, 18개 벤치마크에서 성능 향상을 확인했어요.

Qwen3-VL-2B 모델을 기반으로 COCO에서 CIDEr 점수가 16.85점, TextCaps에서 19.66점 향상되었고, 객체 환각 현상도 감소했어요.

##LMM##자기진화##컴퓨터비전##Qwen3

매일 핵심 AI 소식을 한국어로, 빠르게