연구진은 다중 에이전트 강화 학습이 실제 환경 상호작용에 필요한 안전 기반을 제공한다고 밝혔습니다. 고속 드론 레이싱을 통해 여러 드론 간의 복잡한 상호작용과 전략적 기동을 학습시켰습니다. 리그 기반의 자가 학습을 통해 드론들은 예측 행동을 발전시켜 충돌 회피, 추월, 공기역학적 영향 처리 능력을 갖추게 되었습니다.
학습된 드론들은 최고 수준의 인간 조종사를 능가하며, 최고 속도 22m/s 이상에서 레이싱하며 충돌률을 기존 방식보다 50% 감소시켰습니다. 다양한 인공 에이전트 훈련을 통해 안전한 인간 상호작용으로의 일반화가 가능했습니다.