연구팀은 사용자의 시각적 지침을 반영하여 로봇의 공간 추론 능력을 향상시키는 GTA-VLA 프레임워크를 제안했습니다. GTA-VLA는 사용자가 로봇 정책에 시각적 단서를 제공하여 공간적으로 제어 가능한 임베디드 추론을 가능하게 합니다. SimplerEnv WidowX 벤치마크에서 81.2%의 성공률을 달성했으며, 시각적 변화 및 공간적 모호함 상황에서 기존 방법보다 뛰어난 성능을 보였습니다.