연구진은 선제 추천 시스템(PRS)의 성능을 높이기 위해 강화 학습(RL) 프레임워크인 ProRL을 제안했어요. ProRL은 경로 길이에 따른 편향을 없애고, 단계별 중요도를 반영하여 정책 기울기를 개선하는 두 가지 새로운 메커니즘을 도입했어요. 실험 결과, ProRL은 세 가지 실제 데이터셋에서 기존 PRS보다 성능이 뛰어난 것으로 나타났으며, 코드는 GitHub에서 확인할 수 있어요.