연구진은 다중 목표 다중 에이전트 강화 학습(MOMARL) 환경에서 팀 의사 결정을 위한 PCMA(Preference Coordinated Multi-agent Policy Optimization)를 제안했어요. PCMA는 에이전트별 선호도를 학습하여 상호 보완적인 절충을 가능하게 해요.
이 방법은 팀 최적 게임으로 공식화되었으며, 선호도 다양성이 팀 개선을 유도하는 것으로 나타났어요.
다중 환경 실험과 교통 제어 시나리오에서 PCMA는 성능과 절충 조정 능력을 향상시키는 것으로 확인됐어요.