연구진은 멀티모달 대규모 언어 모델(MLLM)의 미세 입 멀티 이미지 이해 성능을 향상시키는 저비용 프레임워크인 CGC(Compositional Grounded Contrast)를 제안했어요.
CGC는 기존의 단일 이미지 기반 정렬 주석을 활용하여 이미지 간 대비와 뷰 간 상관관계를 활용한 훈련 인스턴스를 구성하여 공간 환각, 어텐션 누수, 객체 일관성 실패 문제를 해결해요.
CGC는 MIG-Bench, VLM2-Bench 등 미세 입 멀티 이미지 벤치마크에서 최고 성능을 달성했으며, MathVista, MuirBench 등 다양한 멀티모달 이해 및 추론 작업에서도 성능 향상을 보였어요.