연구진은 FPS 게임의 상호작용 세계 모델이 프레임마다 고주파 중복 제어 신호를 해결해야 하지만, 영향을 받지 않는 영역을 방해하지 않도록 해야 한다고 밝혔습니다.
SCOPE는 사전 훈련된 비디오 확산 모델의 각 트랜스포머 블록에 컨디셔닝 모듈을 삽입하여 각 위치가 로컬 시각 콘텐츠에서 액션 응답을 계산하도록 합니다.
연구진은 69K 클립으로 구성된 최초의 멀티 게임 FPS 데이터셋 CrossFPS를 소개하여 게임 플레이 편향을 제거하고 시각-액션 매핑을 학습하여 새로운 장면으로 원활하게 전송할 수 있도록 했습니다.