연구진이 로봇 상태를 고려한 액션 토크나이저 SA-VLA를 제안했어요. 기존 토크나이저는 로봇의 상태를 무시하고 고정된 액션 프로토타입을 사용하는데, SA-VLA는 로봇 상태에 따라 액션 디코딩을 조정해요.
SA-VLA는 상태와 액션 특징 간의 크로스 어텐션 또는 가벼운 상태 어댑터를 활용하여 로봇 상태에 따라 액션 제어를 조절해요. 이를 통해 제한된 코드북의 지원 범위를 확장하고 효율성을 유지해요.
RoboTwin 환경의 12가지 조작 작업에서 SA-VLA는 기존 토크나이저 대비 평균 성공률을 0.29에서 0.56으로 향상시켰어요. 실제 환경에서도 0.15에서 0.33으로 성공률을 높였어요.
SA-VLA는 LLM 기반 VLA 정책에 통합되어 자동 회귀 및 병렬 액션 토큰 디코딩을 지원하며, 기존 모델 인터페이스에 최소한의 변경만으로 적용 가능해요.