연구진은 시각-언어 관찰이 다른 행동 조각으로 이어지는 로봇 모방 데이터의 문제점을 해결하기 위해 IntentVLA 프레임워크를 개발했어요. IntentVLA는 최근 시각 정보를 짧은 시간 의도 표현으로 인코딩하여 행동 조각 생성을 조건화합니다. AliasBench 벤치마크를 통해 짧은 시간 관찰의 모호성을 분리하여 평가했습니다.
기존 프레임워크는 부분적인 가시성 하에서 인접한 재계획 단계에서 의도를 재샘플링하여 행동 조각 간 충돌과 불안정한 실행을 초래했지만, IntentVLA는 이러한 문제를 개선합니다. 연구 결과, IntentVLA는 롤아웃 안정성을 향상시키고 강력한 VLA 기반 모델을 능가하는 성능을 보였습니다.
연구진은 AliasBench, SimplerEnv, LIBERO, RoboCasa 환경에서 IntentVLA의 성능을 평가하여 짧은 시간 의도 모델링의 중요성을 입증했습니다.