연구진은 미묘하고 겹치는 다중 양식 단서로 표현되는 혼합 감정 인식을 위해 순위 인식 선택적 융합 프레임워크를 제안했어요. 다양한 비디오 및 오디오 인코더의 상호 보완적인 표현을 선택적으로 결합하는 방식입니다. 프레임워크는 존재 및 중요도 예측을 분리하여 확률 수준에서 정렬하고, 분포 변화에 강건성을 높이기 위해 특징 수준의 비지도 도메인 적응을 통합했어요.