연구진이 추상적인 안전 개념을 다루기 위해 이미지 기반 예시가 아닌 규칙 기반 접근 방식을 도입한 CompliVision 데이터셋을 공개했어요.
CompliVision 데이터셋은 교통, 건설, 창고 환경의 3,006개 이미지를 포함하며, 각 이미지는 특정 안전 규칙 준수 여부에 대한 자연어 설명을 함께 제공해요.
기존 VL 모델의 한계를 극복하기 위해 LLaVA 기반 시각적 추론과 인간 피드백을 결합한 새로운 위험 감지 프레임워크를 제안했어요.