본 논문에서는 퓨샷 액션 인식을 위해 시맨틱-시간적 불일치 문제를 해결하는 STAR(Semantic Temporal Adaptive Representation Learning) 프레임워크를 제안합니다.
STAR는 Temporal Semantic Attention (TSA) 메커니즘을 통해 프레임 레벨의 교차 모달 정렬을 수행하여 세밀한 시맨틱-시간적 일관성을 확보합니다.
5개의 퓨샷 액션 인식 벤치마크 실험 결과, STAR는 기존 최고 성능 모델보다 최대 8.1%의 성능 향상을 보였습니다.