본 연구는 현대 Vision-Language-Action(VLA) 모델의 환경 변화 적응 문제를 해결하기 위해 In-Context World Modeling(ICWM) 프레임워크를 제안합니다. ICWM은 로봇이 스스로 생성한 상호 작용 기록을 통해 시스템 변수를 추론하여 새로운 환경에 적응합니다. 기존 In-Context Learning과 달리, ICWM은 시스템 작동 방식을 이해하는 데 활용됩니다.
ICWM은 시뮬레이션 및 실제 로봇 플랫폼 실험에서 표준 VLA 모델보다 새로운 카메라 시점에서 성능이 우수함을 입증했습니다. 이는 시스템 변수를 문맥 내 적응 문제로 처리함으로써 가능했습니다.
ICWM은 파라미터 업데이트 없이 새로운 구성을 지원하며, 데이터 의존성을 줄이고 일반화 능력을 향상시키는 데 기여합니다.