연구진은 시각-언어 모델(VLM)의 모달리티 대체 시 성능 저하 문제를 분석하고, 이를 해결하기 위해 LoMo(Local Modality Substitution)라는 새로운 데이터 큐레이션 패러다임을 제안했어요.
LoMo는 텍스트 프롬프트를 이미지로 변환하여 시각-언어 간 표현 불변성을 학습하도록 설계되었으며, 기존 데이터의 비대칭적인 역할 구분을 개선하는 데 목표를 두고 있어요.
13개의 멀티모달 벤치마크 실험 결과, LoMo는 다양한 모델에서 성능 향상을 보였으며, LLaVA-OneVision-1.5-8B 모델의 경우 표준 SFT보다 2.67점이 개선됐어요.