사용자가 맞춤형 RL 알고리즘 'NOML'을 개발하여 오픈 소스로 공개했습니다. 이 알고리즘은 연속적인 비행 제어에서 특정 축이 지배적인 경우 유용할 수 있습니다. NOML은 기존 TD3 알고리즘의 한계를 극복하기 위해 앵커 정책, 계층적 액터, 미러 학습이라는 세 가지 구조적 변화를 적용했습니다. 알고리즘은 탐색 노이즈를 효과적으로 끄고도 안정적인 성능을 보였으며, 코드와 상세 설명, 테스트 영상은 GitHub에서 확인할 수 있습니다.