연구진은 시각 세계 모델(VWM)의 안전성을 평가하는 새로운 프레임워크 'BadWorld'를 개발했어요. BadWorld는 미래 영상에 대한 감독 없이도 모델의 취약점을 파악하고, 예측 불가능한 사용자 제어에도 대응할 수 있도록 설계됐어요. 실험 결과, 미세한 적대적 공격에도 VWM의 미래 예측 성능이 급격히 저하되는 심각한 구조적 취약점이 드러났어요.
BadWorld는 모델의 초기 노이즈 제거 과정을 직접적으로 방해하는 자기 지도 속도 공격을 제안하고, 사용자 제어를 고려한 2단계 최적화 기법을 통해 공격의 일반성을 확보했어요. 이는 VWM이 안전한 시스템에 적용되기 전에 반드시 해결해야 할 과제입니다.
연구 결과는 VWM의 안전성 문제를 제기하는 동시에, 개인 정보 보호를 위한 실용적인 공격 기법을 제시하며, 시각 세계 모델의 잠재적 위험성을 경고합니다.