연구진이 물리적 환경에서 발생하는 시각적 스트레스에 대한 VLM(Vision-Language Model)의 강건성을 평가하는 벤치마크 RoboStressBench를 발표했어요.
RoboStressBench는 재질, 시점, 조명, 기하학적 구조 등 4가지 물리적 요소를 기반으로 시각적 스트레스를 정의하고 평가하며, 기존 벤치마크의 한계를 극복했어요.
평가 결과, 특정 물리적 요인이 VLM의 시각 인식, 추론, 계획 등 다양한 능력을 저하시키는 것을 확인했으며, 스트레스에 대한 인식 능력을 향상시키는 솔루션을 제안했어요.