Geometric Action Model(GAM)은 로봇이 3D 물리 세계의 상호작용을 이해하고 사용자 지시를 따르도록 하는 새로운 제어 정책입니다. 기존 모델은 2D 이미지 기반으로 작동하지만, GAM은 사전 학습된 지오메트릭 모델을 활용하여 3D 환경을 직접 처리합니다.
GAM은 지오메트릭 모델을 활용하여 시각 정보 인코딩, 시간 예측, 행동 디코딩을 수행하며, 언어, 고유 수감, 행동 기록을 기반으로 미래의 잠재 토큰을 예측합니다.
시뮬레이션 및 실제 로봇 환경에서 GAM은 기존 모델보다 정확하고, 빠르며, 가볍다는 결과가 나왔습니다.