본 연구는 불확실하고 공간적으로 상관관계가 있는 수요와 이동 시간 제약 하에서 전기차 택시 합승 서비스의 효율적인 운영을 위한 세미-마르코프 의사 결정 프로세스(semi-MDP) 모델을 제시합니다.
학습된 정책은 물리적 실현 가능성을 보장하기 위해 마스크 처리된 템퍼러처 어닐링 액터가 생성한 고수준 의도를 기반으로 하며, 시간 제한 내에서 MILP를 통해 상태 제약 조건을 엄격하게 적용합니다.
실험 결과, PD--RSAC는 기존 강화 학습 방법 대비 높은 순이익을 달성하며, 피더 제한 위반 없이 뛰어난 성능을 보여주었습니다.