연구진은 장기 의사 결정, 부분 관측성, 로봇 간 협업 문제를 해결하기 위해 M$^{2}$GRPO라는 새로운 프레임워크를 제안했어요. M$^{2}$GRPO는 선택적 상태 공간 맘바 정책과 그룹 상대 정책 최적화를 통합하여 로봇 간 상호 작용을 인코딩하고 안정적인 정책 업데이트를 가능하게 해요. 시뮬레이션 및 실제 실험 결과, M$^{2}$GRPO는 MAPPO 및 순환 기반 모델보다 추격 성공률과 포획 효율성 측면에서 우수한 성능을 보였어요.