연구진은 시각-언어-행동(VLA) 모델의 공간적 모호성 문제를 해결하기 위해 제스처를 활용하는 GesVLA 모델을 제안했어요.
GesVLA는 제스처 특징을 잠재 공간에 직접 통합하여 고차원 추론과 저차원 행동 생성에 활용하며, 제스처 표현과 행동 정책 간의 밀접한 연관성을 위해 이중 VLM 아키텍처를 채택했어요.
연구팀은 손 모델 렌더링을 통해 실제 장면 이미지에 제스처 데이터를 생성하는 파이프라인을 구축하여 시뮬레이션-실세계 격차를 줄이고 다양한 동작 패턴과 지시 주석을 확보했어요.
실제 로봇 작업 환경에서 GesVLA는 목표 지칭 정확도와 인간-로봇 상호작용 효율성을 향상시켜 복잡하고 혼잡한 환경에서 특히 효과적이에요.