연구자가 강화 학습(RL)을 활용해 Generals.io 게임에서 인간을 뛰어넘는 AI 에이전트를 개발했어요. 이 에이전트는 자체 학습을 통해 1v1 리더보드 1위를 차지했어요. 개발 과정과 기술 스택을 담은 블로그 포스트와 오픈 소스 코드가 공개됐어요.