연구진은 비전-언어-액션(VLA) 모델의 동기화된 처리 방식이 실제 상호작용과 맞지 않아 비효율적이라고 지적했어요. 이를 해결하기 위해 각 모달리티의 센서 속도에 맞춰 시간 분리를 적용한 DAM-VLA 모델을 제안했어요. 7가지 실제 조작 작업에서 기존 모델 대비 평균 성공률을 2배 이상 끌어올리며 100Hz의 반응성을 유지했어요.
DAM-VLA는 각 모달리티의 잠재적 버퍼를 유지하며, 센서 속도에 맞춰 업데이트하고 액션 헤드가 지속적으로 읽도록 설계돼 있어요. 이를 통해 고주파 모달리티를 게이티드 크로스 어텐션으로 통합하며 사전 훈련된 백본은 그대로 유지해요. 프로젝트 웹사이트는 intuitive-robots.github.io/DAM-VLA/ 입니다.
기존 VLA 모델은 모든 입력 데이터를 동일한 속도로 처리하지만, 실제 상호작용에서는 각 모달리티의 속도가 다르기 때문에 비효율적이에요. DAM-VLA는 이러한 문제를 해결하기 위해 각 모달리티의 속도에 맞춰 시간을 분리하여 더 강력한 표현과 안정적인 제어를 가능하게 해요.