Pulse · AI 뉴스

GMGaze: MoE 기반 컨텍스트 인식 시선 추정 모델

arXiv cs.CV · 2026-05-02

연구진은 CNN, Transformer, CLIP 기반 시선 추정 방법의 한계를 극복하기 위해 다중 스케일 Transformer 아키텍처를 활용한 GMGaze 모델을 제안했습니다.

GMGaze는 조명, 배경, 머리 자세, 외모 등 4가지 요소를 고려한 시맨틱 프로토타입 컨디셔닝을 통해 CLIP 이미지 임베딩을 조절하여 두 개의 상호 보완적인 컨텍스트 편향 글로벌 토큰을 생성합니다.

4가지 공개 벤치마크에서 실험 결과, GMGaze는 기존 모델 대비 우수한 성능을 보였으며, 교차 도메인 평가에서는 최고 성능(SOTA)을 달성했습니다.

##시선추정##MoE##Transformer

매일 핵심 AI 소식을 한국어로, 빠르게