연구팀은 비디오 콘텐츠 증가에 따라 자연어 쿼리를 통한 의미 있는 비디오 검색의 중요성이 커짐에 따라 DREAM 모델을 개발했어요. DREAM은 시각 및 텍스트 인코딩을 강화하여 복잡한 시공간 의존성과 미묘한 언어 구조를 모델링하는 데 어려움을 해결해요. MSRVTT, MSVD, LSMDC 벤치마크에서 새로운 최고 R1 점수를 달성하며, 프레임 간 일관성 유지 및 복잡한 쿼리와 동적 비디오 콘텐츠 정렬 능력을 입증했어요.