연구진은 다중 에이전트 강화 학습(MARL) 환경에서 에이전트들이 협력하여 공동의 보상을 극대화하는 ACPO(Agent-Chained Policy Optimization)를 개발했어요. ACPO는 중앙 집중식 훈련과 분산 실행(CTDE) 패러다임 하에서 정책 그래디언트를 정확하게 계산하는 새로운 접근 방식이에요.
ACPO는 에이전트들이 순차적으로 행동을 결정하는 방식으로, 각 에이전트는 이전 행동에 대한 믿음을 기반으로 행동하며, 이 믿음이 독립적인 에이전트 업데이트를 공동 그래디언트 단계로 연결하는 조정 메커니즘 역할을 해요.
Multi-Robot Warehouse, SMACv2, MA-MuJoCo 환경에서 ACPO는 기존 방법보다 뛰어난 성능을 보였으며, 에이전트 수가 증가할수록 성능 차이가 더 커졌어요.