연구진은 목표 조건부 강화 학습 에이전트가 환경을 탐색할 때 얻는 정보를 최대한 활용하는 'Learning Everything all at Once (LEO)'라는 새로운 방법을 제시했어요. LEO는 네트워크를 한 번만 통과시켜 모든 목표에 대한 가치와 행동을 동시에 출력하여 효율적인 병렬 학습을 가능하게 해요. Craftax 환경에서 기존 방법보다 성능이 뛰어나고, 연속 제어 환경에서도 경쟁력을 보이며 250배 이상의 속도 향상을 달성했어요.
LEO를 직접 액터로 사용하는 대신 교사 네트워크로 활용하면 더욱 강력한 성능을 낼 수 있다는 점이 확인되었어요. 연구진은 LEO가 복잡한 환경에서 강화 학습 연구자들에게 유용한 도구가 될 수 있기를 바라며, 관련 코드를 공개했어요.
LEO는 각 전환(transition)을 모든 목표에 대해 오프라인으로 학습하는 'all-goals learning'을 가능하게 하며, 기존 방식의 재표시(relabeling) 방식의 계산 불가능성을 극복합니다.