연구진은 임베디드 월드 모델의 한계를 극복하기 위해 시각적 행동 제어 방식인 iMac을 제안했어요. iMac은 로봇의 운동 및 접촉 정보를 이미지 기반의 액션 토큰으로 표현하여 기존의 벡터 기반 방식보다 표현력과 일반화 성능을 향상시켰어요. 공개된 벤치마크와 실제 로봇 시나리오에서 실험 결과, iMac은 예측 정확도, 작업 성공률, 장면 간 일반화 능력에서 기존 방식보다 우수한 성능을 보였어요.