연구진이 반도체 제조 공정 최적화를 위한 강화 학습 프레임워크를 제안했어요. 복잡한 공정 환경을 이벤트 기반의 시간적 과정으로 모델링하고, 중앙 집중식 에이전트가 시스템 전체 의사 결정을 조정하는 방식이에요. 이벤트 기반 시간 차분 공식을 개발하여 다양한 정책 최적화 방법과 통합 가능하도록 설계했어요.
오프라인 및 온라인 학습 환경에서 훈련된 에이전트는 처리량과 활용률에서 상당한 개선을 보였어요. 다양한 산업 현장 시나리오에서 고해상도 시뮬레이션을 통해 효과를 검증했어요.
연구 결과, 제안된 프레임워크는 이벤트 기반 복잡 적응 시스템 제어에 있어 확장성, 일반성, 이식성을 입증했어요. 다양한 강화 학습 공식 및 알고리즘의 상대적 강점을 명확히 밝혔어요.