Pulse · AI 뉴스

다중 에이전트 정책 경사법에서 적대적 인식 기반 유입을 통한 균형 선택

arXiv cs.LG · 2026-05-18

연구진은 다중 에이전트 정책 경사법이 안정적인 내쉬 균형 근처에서 지역적으로 수렴한다는 것을 확인했어요. 하지만 지역 수렴만으로는 어떤 균형이 선택되는지 결정할 수 없으며, 본 연구는 이를 유입 확률을 통해 분석해요. 연구 결과, 피어 학습 수정이 주요 균형 선택 메커니즘으로 작용하며, 협력적인 균형으로의 유입 확률을 높여요.

유입 확률을 통해 특정 균형 집합에 대한 인증된 인력 지역으로의 유입 확률을 분석하고, 이를 통해 협력적인 균형으로의 유입 확률을 높일 수 있음을 확인했어요. 이는 Stag Hunt, iterated Prisoner's Dilemma 환경에서 관찰되었어요.

연구진은 적대적 인식을 기반으로 한 업데이트가 기존 정책 경사법의 장점을 유지하면서 지역적으로 안정적인 내쉬 균형으로 수렴하도록 보장하는 방법을 제시했어요.

##다중에이전트##정책경사법##내쉬균형##머신러닝
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기