Pulse · AI 뉴스

M$^{2}$GRPO: 맘바 기반 다중 에이전트 그룹 상대 정책 최적화

arXiv cs.AI · 2026-04-21

연구진은 장기 의사 결정, 부분 관측성, 로봇 간 협업 문제를 해결하기 위해 M$^{2}$GRPO라는 새로운 프레임워크를 제안했어요.

M$^{2}$GRPO는 선택적 상태 공간 맘바 정책과 그룹 상대 정책 최적화를 통합하여 로봇 간 상호 작용을 인코딩하고 안정적인 정책 업데이트를 가능하게 해요.

시뮬레이션 및 실제 실험 결과, M$^{2}$GRPO는 MAPPO 및 순환 기반 모델보다 추격 성공률과 포획 효율성 측면에서 우수한 성능을 보였어요.

##로봇##인공지능##다중에이전트
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기