연구진이 $λ$-타겟 업데이트라는 새로운 방식을 제안하고 분석했어요. 이 방식은 주기적인 타겟 업데이트 맵을 기하학적 가중치로 평균화하는 방식이에요. $λ$ 값이 0이면 기존 1 주기 타겟 업데이트, 1에 가까워지면 투영 Q-값 반복과 유사한 결과를 보여줘요.
선형 Q-러닝 환경에서 이 방식을 스위칭 시스템 모델과 관련 도구를 활용해 연구했어요. 이 방식은 결정론적 환경에서 명확하게 분석했지만, 확률적 강화 학습 환경에도 적용 가능해요.
연구는 현대 딥 Q-러닝에서 흔히 사용되는 타겟 업데이트 방식의 안정화 기전을 이해하는 데 기여할 수 있어요.