연구팀은 3D 환경에서 정밀한 로봇 조작을 위해 3D 포인트 클라우드 정보를 활용하는 PointACT라는 새로운 Vision-Language-Action (VLA) 정책을 제안했어요.
PointACT는 다중 스케일 포인트-액션 상호작용 메커니즘을 통해 로봇이 로컬 기하학적 디테일과 글로벌 장면 구조에 집중할 수 있도록 설계됐어요.
LIBERO 및 RLBench 벤치마크에서 기존 VLA 모델보다 성공률이 10% 향상되었으며, 특히 비전-언어 백본을 고정하고 액션 전문가만 학습할 때 더 큰 효과를 보였어요.
연구 결과는 3D 기하학 정보를 2D 의미 표현과 결합하는 것이 견고하고 공간적으로 정지된 로봇 제어에 중요하다는 것을 보여줘요.