본 연구는 비전-언어 모델이 배포 시 시각 및 텍스트 분기에서 비대칭적으로 변화하는 현상에 주목했어요. 주요화 관점에서 다중 모드 후류 분포를 분석하고, 예측에 대한 제약된 역혼합 문제를 정의하여 새로운 적응 방법인 MG-MTTA를 제안했어요. ImageNet 벤치마크에서 MG-MTTA는 텍스트 변화에 따른 정확도를 66.51%까지 향상시켰으며, 시각-텍스트 동시 변화 시에도 26.27%의 정확도를 기록했어요.