연구진은 모델 기반 표현의 한계를 극복하기 위해 DR.Q 알고리즘을 제안했습니다. DR.Q는 현재 상태-행동 쌍 표현과 다음 상태 간의 상호 정보량을 최대화하고, 우선순위 경험 재생을 통해 편향을 줄입니다. 다양한 연속 제어 벤치마크에서 DR.Q는 기존 모델보다 우수한 성능을 보였습니다. 코드는 GitHub에서 확인할 수 있습니다.
기존 모델 기반 표현 방법은 관련 변수에 대한 충분한 정보를 포착하지 못하고 초기 경험에 과적합되는 경향이 있습니다. 이러한 문제는 표현과 액터-크리틱 학습에 편향을 초래하여 성능 저하를 야기합니다.
DR.Q 알고리즘은 현재 상태-행동 쌍 표현과 다음 상태 간의 상호 정보량을 최대화하고, 우선순위 경험 재생을 통해 편향을 줄입니다.