Pulse · AI 뉴스

다중 목표 다중 에이전트 강화 학습을 위한 조정된 선호도 학습

PCMA · 2026-06-13

연구진은 다중 목표 다중 에이전트 강화 학습(MOMARL) 환경에서 팀 의사 결정을 위한 PCMA(Preference Coordinated Multi-agent Policy Optimization)를 제안했어요. PCMA는 에이전트별 선호도를 학습하여 상호 보완적인 절충을 가능하게 해요.

이 방법은 팀 최적 게임으로 공식화되었으며, 선호도 다양성이 팀 개선을 유도하는 것으로 나타났어요.

다중 환경 실험과 교통 제어 시나리오에서 PCMA는 성능과 절충 조정 능력을 향상시키는 것으로 확인됐어요.

##강화학습##다중에이전트##MOMARL##PCMA
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기