연구진은 시각-언어-행동(VLA) 모델의 안전한 배포를 저해하는 심각한 취약점인 적대적 패치 공격 문제를 해결하기 위해 VLA-Hijack 프레임워크를 제안했어요.
VLA-Hijack은 모델이 로봇 팔의 위치를 파악하는 시각적 고유수용성 과정을 타겟으로, 실제 로봇 팔의 특징을 억제하고 패치를 가짜 몸체로 설정하는 방식을 사용해요.
OpenVLA, UniVLA, CronusVLA 등 다양한 아키텍처에서 실험 결과, VLA-Hijack은 뛰어난 최적화 효율성을 보였고, 기존 방식 대비 전이 가능성 측면에서도 최고 성능을 달성했어요.