이 논문은 시각적 양자 강화 학습(QRL)의 어려움을 해결하기 위해 지식 증류(KD)를 활용한 단계적 하이브리드화 전략을 연구합니다. 시각적 교사 모델을 먼저 학습하고, 이 모델의 인코더를 고정하여, 이 고정된 표현을 기반으로 소형 양자 호환 학생 모델을 학습합니다.
CartPole Pixels 및 Acrobat Pixels 환경에서 실험한 결과, 단계적 KD를 통해 얕은 VQC 헤드가 직접적인 픽셀 기반 학습으로는 어려운 시각적 제어 행동을 습득할 수 있음을 확인했습니다.
각도 인코딩된 VQC 헤드는 교사 모델에 가까운 성능을 유지하는 반면, 진폭 인코딩된 헤드는 극단적인 소형화를 달성하지만, 더 큰 불안정성, 예산 민감성 및 더 긴 시뮬레이션 시간을 초래합니다.