Pulse · AI 뉴스

비전-언어 모델의 모달리티별 변화에 따른 주요화 기반 테스트 시간 적응

arXiv cs.CV · 2026-04-28

본 연구는 비전-언어 모델이 배포 시 시각 및 텍스트 분기에서 비대칭적으로 변화하는 현상에 주목했어요.

주요화 관점에서 다중 모드 후류 분포를 분석하고, 예측에 대한 제약된 역혼합 문제를 정의하여 새로운 적응 방법인 MG-MTTA를 제안했어요.

ImageNet 벤치마크에서 MG-MTTA는 텍스트 변화에 따른 정확도를 66.51%까지 향상시켰으며, 시각-텍스트 동시 변화 시에도 26.27%의 정확도를 기록했어요.

##비전언어모델##적응##MG-MTTA##모달리티##ImageNet

매일 핵심 AI 소식을 한국어로, 빠르게