Q-러닝 알고리즘을 직접 스위칭 시스템으로 표현하여 분석했어요. 벨만 최대화 오류를 확률적 정책으로 나타내 Q-러닝 오류를 분석했답니다. 공정된 리아푸노프 함수를 사용하여 최종 반복 횟수 경계를 유도하고, 계산 가능한 이차 인증 버전을 제시했어요.