연구진은 1인칭 시점 영상에서 인간과 환경의 상호작용을 이해하기 위해 장면 그래프 기반 모델 GLEN을 제안했어요. GLEN은 시간 경과에 따른 장면 변화를 추론하고 텍스트 액션과 연계하는 데 사용돼요.
새로운 데이터셋 SG-Ego는 Ego4D에 시공간 장면 그래프를 추가해 인간-환경 상호작용을 명시적으로 표현해요. 이를 통해 활동 기반 장면 변화 예측(A-GEF) 문제를 정의하고 해결했어요.
GLEN은 기존 영상 기반 모델보다 뛰어난 성능을 보였으며, 특히 장기 추론 벤치마크에서 MLLM에 버금가는 결과를 달성했어요.