Pulse · AI 뉴스

LoMo: 시각-언어 모델의 교차 모달 융합 심화

LoMo · 2026-05-29

연구진은 시각-언어 모델(VLM)의 모달리티 교체 시 성능 저하 문제를 분석하고 LoMo(Local Modality Substitution)라는 새로운 데이터 큐레이션 패러다임을 제안했어요.

LoMo는 텍스트 프롬프트를 렌더링된 이미지로 대체하여 의미적으로 동일한 텍스트와 이미지 간의 교차 모달 표현 불변성을 위한 감독 신호를 제공해요.

13개의 다양한 멀티모달 벤치마크 실험 결과, LoMo는 전반적인 멀티모달 추론을 향상시키고 LLaVA-OneVision-1.5-8B 모델의 성능을 2.67점, Qwen3.5-9B 모델의 성능을 2.82점 향상시켰어요.

##VLM##LoMo##교차모달
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기