Pulse · AI 뉴스

OmniEncoder: 인간처럼 연속적인 움직임을 보고, 듣고, 느끼다 – 통합 인코더로 시각과 오디오를 동기화

Omni-Encoder · 2026-05-03

연구진은 인간의 인지 방식을 모방하기 위해 시각과 오디오 신호를 통합적으로 처리하는 Omni-Encoder라는 새로운 Transformer 기반 모델을 개발했습니다.

Omni-Encoder는 시각과 오디오 데이터를 동일한 프레임 속도로 처리하여 모달리티 간 상호작용을 개선하고 미세한 시각적 움직임을 포착합니다.

실험 결과, Omni-Encoder는 기존 모델보다 손짓 언어 인식 및 스포츠 동작 분석 등 시각 연속 이해 작업에서 성능이 향상되었으며, AVQA 및 화자 식별과 같은 오디오-비디오 벤치마크에서도 경쟁력 있는 성능을 유지했습니다.

##모델출시##시각##오디오

매일 핵심 AI 소식을 한국어로, 빠르게