연구진은 산업 현장 이상 감지를 위한 다중 뷰 비디오 데이터셋 MMVIAD를 공개했으며, 이는 기존 데이터셋의 한계를 극복하기 위해 제작되었습니다.
MMVIAD는 48개 객체 카테고리, 14개 환경, 6가지 구조적 이상 유형을 포함하며, 이상 감지, 결함 분류, 객체 분류, 이상 발생 시간 지역화 등 다양한 작업을 지원합니다.
VISTA 모델은 MMVIAD-Unseen 데이터셋에서 기존 모델의 성능을 45.0에서 57.5로 향상시켜 GPT-5.4를 능가하는 결과를 보여주었습니다.