연구진은 강화 학습(RL)이 LLM 에이전트의 행동을 개선하지만 환경에 미치는 영향에 대한 감독은 부족하다는 점에 주목했어요. PaW 프레임워크는 정책과 세계 모델(WM)을 동시에 훈련하며, 별도의 시뮬레이터나 추가적인 연산 없이 RL 과정에서 얻는 데이터를 활용해요. 실험 결과, PaW는 다양한 모델과 RL 알고리즘에서 기존 RL 방식보다 성능이 향상됐어요.