Pulse · AI 뉴스

MDM: 비전-언어 데이터 증류를 위한 다중 모드 분포 매칭

Multimodal Distribution Matching · 2026-05-22

연구진은 제한된 컴퓨팅 자원으로 비전-언어 데이터 증류 성능을 높이는 MDM(Multimodal Distribution Matching) 프레임워크를 공개했어요. MDM은 데이터, 모델, 손실 함수 레벨에서 상호 보완적인 요소를 통합하여 합성 이미지-텍스트 쌍을 생성해요.

MDM은 데이터 레벨에서 조인트 임베딩 공간 클러스터에서 샘플링하여 초기 합성 이미지-텍스트 쌍을 생성하고, 모델 레벨에서는 가중치 공간에서 각 모델의 각도 편차에 따라 미세 조정된 모델을 보간하여 혼합된 교사 모델을 구성해요.

MDM은 손실 함수 레벨에서 교차 모드 합의 및 불일치 방향에서 조인트 특징을 활용하는 기하학적 매칭 객관 함수를 사용하여 단위 초구면에서 조인트 분포를 일치시켜 데이터 증류 비용을 크게 줄이고 다양한 아키텍처에서 견고성을 유지해요.

##데이터증류##비전언어##MDM##인공지능
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기