SphereVAD는 훈련 없이 비디오 이상을 감지하는 새로운 프레임워크로, 기존 방식의 한계를 극복합니다. 이 방법은 사전 훈련된 멀티모달 대규모 언어 모델(MLLM)의 특징을 활용하여 이상 감지를 수행합니다.
vMF 적률비 게오데식 추론을 통해 구면 다양체에서 방향성 프로토타입과 모호한 세그먼트를 정렬하며, 이는 기존 방식보다 더 효과적인 이상 감지를 가능하게 합니다.
SphereVAD는 세 가지 주요 벤치마크에서 기존 훈련 없는 방식보다 뛰어난 성능을 보이며, 완전 감독 방식과 경쟁할 수 있는 수준입니다.