연구진은 다중 모드 학습의 교차 모드 일반화 능력과 모드별 구조 균형 문제를 해결하기 위해 CoDAAR 프레임워크를 개발했어요.
CoDAAR는 DTA(Discrete Temporal Alignment)와 CSA(Cascading Semantic Alignment)를 결합하여 모드별 고유 구조를 보존하면서도 통합된 이산 공간에서 일반화 가능한 교차 모드 표현을 달성합니다.
이산 시간 정렬과 캐스케이딩 의미론적 정렬을 통해 다양한 벤치마크에서 최첨단 성능을 기록하며 다중 모드 표현 학습의 새로운 패러다임을 제시했어요.