연구진은 시각적 어려움 속에서 CLIP 기반 액션 인식을 개선하는 EV-CLIP 프레임워크를 제안했어요. EV-CLIP은 액션 관련 영역에 주의를 집중시키는 마스크 프롬프트와 가벼운 시간 모델링을 수행하는 컨텍스트 프롬프트를 도입했어요. 다양한 벤치마크 데이터셋 실험 결과, EV-CLIP은 기존의 효율적인 방법보다 뛰어난 성능을 보여줬어요.