연구진은 FPS 게임의 상호작용 세계 모델이 프레임마다 고주파 중복 제어 신호를 해결해야 하지만, 영향을 받지 않는 영역을 방해해서는 안 된다는 문제를 해결하기 위해 SCOPE를 제안했어요.
SCOPE는 사전 훈련된 비디오 확산 모델의 각 트랜스포머 블록에 컨디셔닝 모듈을 삽입하여 각 위치가 로컬 시각 콘텐츠에서 동작 응답을 계산하도록 합니다.
연구진은 7개의 게임에서 69,000개의 클립으로 구성된 최초의 멀티 게임 FPS 데이터셋인 CrossFPS를 도입하여 모델이 게임별 패턴이 아닌 일반적인 시각-동작 매핑을 학습하도록 했습니다.