연구진이 인간 활동을 실시간으로 모니터링하고 위험한 행동을 예측하여 안전 개입을 수행하는 VLESA(Vision-Language Embodied Safety Agent) 프레임워크를 공개했어요.
VLESA는 상황에 따라 안전하지 않은 행동을 판단하는 의존성 안전 문제를 해결하며, 새로운 안전 주석 데이터셋과 GRPO 기반 Q-필터를 활용해요.
ASIMOV-2.0 벤치마크에서 VLESA는 기존 방식보다 정확한 안전 개입을 달성했으며, 안전한 행동을 41% 이상 개선했어요.