연구진이 다중 목표 강화 학습 알고리즘인 패레토 Q-러닝과 보상 머신(RM)을 결합한 PQLRM을 개발했어요. PQLRM은 패레토 Q-러닝의 샘플 효율성을 유지하면서 보상 신호의 자동화 구조를 활용하는 QRM의 장점을 결합했어요.
PQLRM은 교차-MDP에 적용한 기존 PQL보다 빠르게 수렴하며, QRM이 생성할 수 없는 패레토 최적 정책을 합성할 수 있음을 실험적으로 입증했어요.
본 연구는 비마르코프 환경에서 RM으로 인코딩된 보상을 가진 작업에 대한 다중 정책 알고리즘을 제공하며, 강화 학습 연구에 기여할 것으로 기대돼요.