연구진은 인간의 경로 비교를 통해 정책을 학습하는 선호 기반 강화 학습(PbRL)의 문제점을 분석했어요. 기존 방식의 학습과 최적화 불일치로 인한 시간 신용 할당 문제를 해결하기 위해 세그먼트 기반 선호 학습 방법인 PAWS를 제안했어요. PAWS는 세그먼트 수준의 어드밴티지 함수를 활용하여 정책을 업데이트해 경로 수준의 선호 정보를 유지하고 신뢰할 수 없는 단계별 학습 신호를 피합니다.