연구진은 CNN, Transformer, CLIP 기반 시선 추정 방법의 한계를 극복하기 위해 다중 스케일 Transformer 아키텍처를 활용한 GMGaze 모델을 제안했습니다.
GMGaze는 조명, 배경, 머리 자세, 외모 등 4가지 요소를 고려한 시맨틱 프로토타입 컨디셔닝을 통해 CLIP 이미지 임베딩을 조절하여 두 개의 상호 보완적인 컨텍스트 편향 글로벌 토큰을 생성합니다.
4가지 공개 벤치마크에서 실험 결과, GMGaze는 기존 모델 대비 우수한 성능을 보였으며, 교차 도메인 평가에서는 최고 성능(SOTA)을 달성했습니다.