Pulse · AI 뉴스

LoMo: 시각-언어 융합 강화를 위한 로컬 모달리티 대체

LoMo · 2026-05-28

연구진은 시각-언어 모델(VLM)의 모달리티 대체 시 성능 저하 문제를 분석하고, 이를 해결하기 위해 LoMo(Local Modality Substitution)라는 새로운 데이터 큐레이션 패러다임을 제안했어요.

LoMo는 텍스트 프롬프트를 이미지로 변환하여 시각-언어 간 표현 불변성을 학습하도록 설계되었으며, 기존 데이터의 비대칭적인 역할 구분을 개선하는 데 목표를 두고 있어요.

13개의 멀티모달 벤치마크 실험 결과, LoMo는 다양한 모델에서 성능 향상을 보였으며, LLaVA-OneVision-1.5-8B 모델의 경우 표준 SFT보다 2.67점이 개선됐어요.

##VLM##시각언어모델##LoMo##데이터큐레이션

매일 핵심 AI 소식을 한국어로, 빠르게