연구진은 시공간적 유사성 볼륨 집계(SimVA)라는 새로운 프레임워크를 제안했어요. SimVA는 패치 레벨의 시각-텍스트 유사성으로부터 밀집된 4D 시공간적 유사성 볼륨을 구축하여 액션 인식을 개선합니다. Mamba 기반의 시간 집계는 클래스 기반 유사성 패턴의 변화를 모델링합니다.
SimVA는 기존 방식이 놓치는 로컬 패치 정보와 미세한 시공간적 단서를 보존하며, CLIP을 비디오 액션 인지에 효과적으로 적용합니다. 연구 결과, 제로샷, 소량 샘플링, 기존-새로운 벤치마크에서 경쟁력 있는 성능을 달성했어요.
SimVA는 공간 집계를 통해 로컬 유사성 패턴을 맥락화하고, 모션 인지 모듈레이션을 통해 프레임 간 변화를 강조하여 성능을 향상시켰습니다.