연구진은 시각-언어 모델의 조형성 이해 부족 문제를 해결하기 위해 MACCO(MAsked Compositional Concept MOdeling) 프레임워크를 제안했어요.
MACCO는 한 모달리티의 조형적 개념을 마스크하고 다른 모달리티의 전체 맥락 정보를 기반으로 재구성하여 교차 모달 조형 구조를 효과적으로 파악하고 정렬해요.
다섯 가지 조형성 벤치마크 실험 결과, MACCO는 조형성을 크게 향상시키고, 구문 구조 및 언어 정보 캡처 능력을 개선하며, 텍스트-이미지 생성 및 다중 모달 대규모 언어 모델에도 긍정적인 영향을 미쳐요.