연구진은 다중 에이전트 강화 학습(MARL) 환경에서 정책 분포를 통계적으로 계산하기 어려운 문제를 해결하기 위해 likelihood-free 밀도 비율 추정기를 사용했습니다.
두 개의 리플레이 버퍼를 활용하여 과거 및 현재 정책의 데이터 분포를 나타내는 과거 이력 경로를 저장하고, 이를 기반으로 적응형 TD($λ$) (ATD($λ$)) 값을 할당합니다.
QMIX와 MAPPO 알고리즘에 ATD($λ$)를 적용하여 SMAC 벤치마크와 Gfootball 아카데미 시나리오에서 기존 방식보다 우수한 성능을 보였습니다.