연구진은 DoorDash의 음식 배달 시장에서 지연된 피드백을 활용해 배송 품질과 효율성을 동시에 개선하는 강화 학습 시스템을 개발했어요. 이 시스템은 기존 최적화기를 대체하는 대신, 로그 데이터를 기반으로 학습한 정책을 통해 배송 최적화기의 가중치를 조정해요. 중앙 집중식 오프라인 데이터로 학습하고 분산된 스토어 레벨에서 실행하며, 과도한 가치 추정 방지를 위한 보수적인 규제 기법을 사용했어요.
오프라인 학습된 정책은 배치를 늘리고 배달원 측의 시간 비용을 줄이는 데 성공했지만, 고객에게 제공되는 배달 품질은 유지했어요. 이는 실시간 경제 및 물류 시스템에서 얻은 세계 피드백을 안전하게 활용하여 의사 결정 정책을 온라인으로 적응시킬 수 있음을 보여줘요.
이번 연구는 복잡한 3사자 시장에서 강화 학습을 활용하여 운영 효율성을 높이고 고객 만족도를 유지하는 데 기여할 수 있다는 점을 시사해요.