연구진은 인간의 인지 방식을 모방하기 위해 시각과 오디오 신호를 통합적으로 처리하는 Omni-Encoder라는 새로운 Transformer 기반 모델을 개발했습니다.
Omni-Encoder는 시각과 오디오 데이터를 동일한 프레임 속도로 처리하여 모달리티 간 상호작용을 개선하고 미세한 시각적 움직임을 포착합니다.
실험 결과, Omni-Encoder는 기존 모델보다 손짓 언어 인식 및 스포츠 동작 분석 등 시각 연속 이해 작업에서 성능이 향상되었으며, AVQA 및 화자 식별과 같은 오디오-비디오 벤치마크에서도 경쟁력 있는 성능을 유지했습니다.