본 연구는 강풍 발전소와 연계된 고성능 컴퓨팅(HPC) 데이터센터에서 curtailment를 고려한 워크로드 이동을 위한 온라인 제어기로 강화 학습을 활용합니다.
단일 풍력 터빈과 데이터센터를 포함하는 최소 환경에서 강화 학습은 credit-assignment 문제를 겪고 초기 단계에서 무료 풍력 에너지를 충분히 활용하지 못하는 경향을 보입니다.
최적화 기반 Imitation Learning과 potential-based Reward Shaping을 통해 성능을 개선했으며, PPO와 SAC 변형은 다수의 학습 시드와 200일 테스트 세트에서 우수한 성능을 보였습니다.