연구진이 시뮬레이션 환경에서 훈련한 두 개의 신경망을 활용해 루빅스 큐브를 풀도록 로봇 손을 제어했어요. 자동 도메인 랜덤화(ADR) 기술을 적용하여 훈련 데이터에 없는 상황에서도 적응할 수 있도록 시스템을 만들었어요. 이 연구는 강화 학습이 가상 환경뿐 아니라 높은 수준의 민첩성을 요구하는 실제 문제 해결에도 활용될 수 있음을 보여줘요.