연구진은 얼굴 표정 이해를 위해 MiRA(Marginal-induced Attention Redistribution)라는 새로운 프레임워크를 제안했어요. MiRA는 비디오 트랜스포머(ViT)의 어텐션 메커니즘을 개선하여 미세한 얼굴 움직임에 더 집중하도록 설계됐어요.
MiRA는 프레임별 신뢰도와 프레임 내 집중 통계를 활용하여 프레임별 중요도를 추정하고 얼굴 표정 관련 시공간 정보를 향상시켜요.
얼굴 표정 인식(FER) 벤치마크 실험 결과, 기존 ViT 모델보다 성능이 향상된 것을 확인했어요.