연구진은 세계 행동 모델(WAM)이 시각적 미래를 생성하는 것만으로는 정확한 행동을 추출하기 어렵다는 것을 발견했어요. 행동 디코더가 작업과 관련된 상호 작용 영역에 집중하지 못하고 작업과 관련 없는 영역의 변화에 민감하게 반응하는 현상 때문이에요. AGRA라는 새로운 방법을 제안하여 중간 비디오 확산 특징을 기반 시각 인코더의 의미론적 표현과 정렬하여 세계-행동 인터페이스를 정규화했어요.
AGRA는 작업 디코더가 올바른 상호 작용 영역에 집중하도록 하여 물체 위치 정확도와 활용도 이해를 향상시키고 정책을 개선해요. 결과적으로 AGRA는 기준 세계 행동 모델보다 in-distribution 성능과 out-of-distribution 일반화 모두 향상시켰어요. 이 연구는 WAM의 활용 가능성을 높이는 데 기여할 것으로 기대돼요.