Pulse · AI 뉴스

ARMS: 희소 보상 환경에서의 다중 에이전트 강화 학습을 위한 자동 보상 형성

ARMS · 2026-05-22

연구진은 희소 보상이 다중 에이전트 강화 학습(MARL)의 주요 병목 현상이라는 문제점을 해결하기 위해 ARMS(Automatic Reward-shaping in Multi-agent Systems) 프레임워크를 제안했어요.

ARMS는 경로 순위 매김을 통해 희소 환경 보상으로부터 밀집 보상 형성 신호를 학습하며, 게임 이론적 관점에서 균형 보존을 고려하여 설계됐어요.

부분 관측 다중 에이전트 경로 탐색 환경에서 실험 결과, ARMS는 보상 희소성 및 에이전트 수 증가에 따라 샘플링 효율성을 향상시키고, 새로운 환경에 대한 일반화 성능을 보여줬어요.

##MARL##강화학습##보상형성##ARMS
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기