이 논문은 스타크래프트 미세 조작을 위한 계층적 강화 학습 프레임워크 HRL-IM/CBS를 제안합니다. 영향 지도 해싱은 전장 상황을 압축된 코드로 변환하고, 클러스터 기반 스크립트는 유닛 분할을 통해 적응적 협력을 가능하게 합니다.
HRL-IM/CBS는 다중 Q 테이블 아키텍처를 사용하여 클러스터링 전략 선택과 전술 실행을 분리하고, 보상 할당을 통해 밀도 높은 학습 신호를 제공합니다.
여섯 가지 비대칭 시나리오 실험 결과, HRL-IM/CBS는 기존 딥 RL 모델보다 뛰어난 샘플 효율성과 해석 가능성을 보여주었습니다.