연구진은 강화 학습(RL)이 LLM 에이전트의 행동을 개선하지만 환경에 미치는 영향에 대한 감독은 부족하다는 점에 주목했어요. PaW 프레임워크는 정책과 세계 모델(WM)을 동시에 훈련하며, 기존 방식처럼 별도의 시뮬레이터나 추가적인 연산이 필요 없어요. 실험 결과, PaW는 다양한 모델과 RL 알고리즘에서 강력한 RL 기준 성능을 능가하는 개선을 보였어요.
PaW는 정책 훈련 시 보조적인 WM 감독을 추가하며, 행동 엔트로피 기반 데이터 선택, 노이즈 내성 손실, 보상 적응 손실 균형의 세 가지 요소를 도입하여 WM 감독을 유용하고 안정적으로 만들어요.
PaW는 기존 RL 롤아웃에 포함된 행동과 다음 관측값 쌍을 활용하여 정책과 세계 모델을 동시에 훈련하며, 별도의 시뮬레이터나 추가적인 연산 없이도 성능 향상을 이끌어냈어요.