연구진은 멀티-에이전트 강화 학습(MARL)에서 에이전트 간 협력을 촉진하는 학습 신호 설계의 어려움을 해결하기 위해 MAGIC(Multi-step Advantage-Gated Interventional Causal MARL) 프레임워크를 소개했습니다.
MAGIC은 에이전트 간의 장기적인 인과적 영향을 정량화하고, 이를 기반으로 내재적 보상을 선택적으로 부여하는 방식으로 작동합니다.
MPE 및 SMAC/SMACv2 벤치마크에서 MAGIC은 기존 방법보다 최소 10.1% 향상된 성능을 보여주었습니다.