연구팀은 다중 에이전트 환경에서 몬테카를로 트리 탐색(MCTS)의 확장성 문제를 해결하기 위해 NonZero라는 새로운 방법을 제안했습니다. NonZero는 저차원 비선형 표현을 활용하여 상호작용 기반 제안 규칙을 통해 탐색을 수행하며, 전체 공동 행동 공간을 직접 탐색하지 않습니다.
상호작용 점수를 활용하여 단일 에이전트의 편차는 예측된 이득으로 순위를 매기고, 두 에이전트의 편차는 개별 에이전트가 개선할 수 없더라도 협력 효과를 드러내는 혼합 차이 측정법을 사용합니다.
MatGame, SMAC, SMACv2 환경에서 NonZero는 제한된 탐색 예산 하에서 강력한 모델 기반 및 모델 프리 기준을 능가하는 샘플 효율성과 최종 성능을 향상시켰습니다.