연구진이 MADDPG 알고리즘의 안정성과 협력 능력을 높이기 위해 행동 추론(Action Inference)과 중요 샘플링(importance sampling) 기법을 적용했어요. 행동 추론은 각 에이전트가 다른 에이전트의 의도된 행동을 예측하여 자신의 정책 정확도를 높이는 방식이에요. 중요 샘플링은 최근 경험을 우선시하여 학습 효율성을 개선해요.
PettingZoo 라이브러리의 Predator-Prey 환경에서 실험 결과, 행동 추론은 학습 안정성과 에이전트 간 협력을 향상시켰고, 중요 샘플링은 탐색 효율성을 높였어요. 이 연구는 다중 에이전트 강화 학습 환경의 비정상성을 완화하는 데 기여할 수 있어요.
연구 결과는 GitHub 저장소에서 확인할 수 있으며, 관련 코드는 공개되어 있어요.