연구진은 시점 기반 비전에서 인간-환경 상호작용을 이해하기 위한 EARL 프레임워크를 소개했어요. EARL은 거친 상호작용 의미를 쿼리 기반 답변 및 위치 정보 파악에 명시적으로 전달하는 분석 기반 강화 학습 방식이에요.
두 단계 파싱 프레임워크를 채택하여 시점 기반 상호작용을 전반적으로 해석하고 구조화된 텍스트 설명을 생성하고, 사용자의 질문에 따라 텍스트 답변과 픽셀 단위 마스크를 생성해요.
Ego-IRGBench 실험에서 EARL은 픽셀 위치 정보 파악에서 65.48%의 cIoU를 달성하며 기존 RL 기반 방법보다 8.37% 향상된 성능을 보여줬어요.