연구진은 로봇 조작 작업에서 안전 문제를 해결하기 위해 시각-언어-행동(VLA) 모델의 주의력 메커니즘을 활용하는 새로운 프레임워크를 개발했어요.
기존 안전 필터는 VLM을 사용해 장애물을 식별하지만, 속도 문제로 실시간 제어가 어렵고 움직이는 장애물을 추적할 수 없다는 한계가 있었어요.
새로운 프레임워크는 VLA 모델 내 주의력 헤드를 활용하여 목표 객체를 실시간으로 파악하고, 나머지 장면을 장애물로 취급하여 충돌을 방지하며, 정적 및 동적 환경에서 모두 효과적이에요.