본 연구는 다중 모드 LLM(MLLM) 학습에 필요한 인력 투자를 줄이는 새로운 방법을 제시합니다. 페어 방식의 모달 데이터만 활용하여 전체 다중 모드 분포를 흉내내는 방식입니다. 이론적 분석을 바탕으로, 잠재 표현을 정렬하는 프레임워크를 제안하며, 이는 잠재 표현 정렬과 모드 간 재구성 단계를 포함합니다.
첫 번째 단계에서는 자체 모드 재구성 및 페어 방식의 대비 학습을 통해 모드 간 공유 잠재 공간을 학습합니다. 대비 학습 과정에 부분 정렬 및 최소 잠재 사양을 통해 유도 편향을 적용합니다. 두 번째 단계에서는 사전 학습된 모드 디코더와 새로 도입된 모드 인코더를 통합하여 모드 간 전이 및 생성을 용이하게 합니다.
연구 결과, 3D 포인트 클라우드와 촉각 모달리티를 기존 MLLM에 추가하여 페어 방식의 데이터를 활용했을 때, 정렬된 잠재 표현 공간 학습을 통해 강력한 모드 간 성능을 달성했습니다.