본 논문은 실제 환경에서 발생하는 도메인 변화에 강건한 인간 행동 인식 시스템 개발을 목표로 합니다.
연구진은 제로샷 행동 인식(ZSAR) 모델의 성능을 향상시키기 위해 다중 시점 모션과 텍스트 설명을 결합하는 새로운 접근 방식을 제안합니다.
제안된 방법은 인간 신체 방향과 카메라 시점 변화에 대한 강건성을 높여 NTU-RGB+D, BABEL, NW-UCLA 등 다양한 벤치마크에서 기존 ZSAR 모델보다 뛰어난 성능을 보였습니다.
학습된 표현은 교차 도메인 및 동일 도메인 인식 모두에서 강력한 전이 학습 능력을 보여주며, 코드와 학습된 모델은 GitHub 저장소에서 확인할 수 있습니다.