이 논문에서는 강화 학습 알고리즘의 데이터 효율성을 높이기 위해 신경-기호 접근 방식을 도입했어요. PPO 알고리즘에 부분적인 논리적 정책 명세를 통합하여 어려운 환경에서도 학습을 가이드하는 방법을 제시했어요. OfficeWorld, WaterWorld, DoorKey 벤치마크에서 기존 PPO 및 Reward Machine 방식보다 빠른 학습 속도와 높은 성능을 보여줬어요.