이 글은 대규모 강화 학습(RL) 훈련에서 발생하는 병목 현상을 해결하기 위해 16개의 오픈 소스 라이브러리를 조사하고 비교 분석합니다. 연구에 따르면 Ray가 오케스트레이션에 가장 많이 사용되며, NVIDIA의 NCCL이 모델 가중치 동기화에 널리 활용됩니다. 향후 RL 훈련은 크리틱 프리 알고리즘, 프로세스 보상, 멀티 에이전트 협진, MoE(Mixture of Experts) 모델, 지식 증류 등 다양한 요소를 고려해야 합니다.