연구진은 다중 모드 표현 정렬의 어려움을 해결하기 위해 CodeBind 프레임워크를 제안했어요. CodeBind는 모드별 고유 특징을 고려한 공유-특정 코드북 설계를 통해 다중 모드 표현 공간을 최적화합니다.
CodeBind는 완전한 쌍 데이터 없이도 대상 및 브리지 모드를 점진적으로 정렬하며, 기존 방식과 달리 특징을 공유 및 특정 구성 요소로 분해하여 의미 일관성과 모드별 고유 세부 정보를 확보합니다.
텍스트, 이미지, 비디오 등 9개 모달리티에서 테스트한 결과, CodeBind는 다중 모드 분류 및 검색 작업에서 최고 성능을 달성했어요.