연구진은 드론 스웜과 같은 다중 에이전트 강화 학습(MARL) 환경에서 대역폭 제약 문제를 해결하기 위해 새로운 방법론을 제시했어요. SLIM이라는 최소 아키텍처를 통해 통신 경로와 정책의 잠재적 표현을 분리하여 대역폭 제한이 정책 성능에 미치는 영향을 최소화했어요. 여러 부분 관찰 MARL 벤치마크에서 최첨단 성능을 달성하며, 제한된 통신 환경에서도 확장성과 강건성을 입증했어요.
새로운 방법론은 $β$라는 정규화된 에이전트별 대역폭 예산을 도입하여 희소성, 라운드, 메시지 차원을 단일 제약 조건으로 통합했어요. 이를 통해 대역폭 제한이 정책 용량에 미치는 영향을 분리하고, 단계별 통신을 통해 성능을 향상시킬 수 있었어요.
연구 결과, SLIM은 대역폭이 감소해도 성능 저하가 미미하며, 제한된 통신 환경에서도 확장성과 강건성을 유지하는 것으로 나타났어요. 이는 실제 응용 분야에서 MARL 시스템의 효율성을 높이는 데 기여할 것으로 기대돼요.