Pulse · AI 뉴스

선형 Q-러닝을 위한 기하 평균 하드 타겟 업데이트

arXiv cs.AI · 2026-06-09

연구진이 $λ$-타겟 업데이트라는 새로운 방식을 제안하고 분석했어요. 이 방식은 주기적인 타겟 업데이트 맵을 기하학적 가중치로 평균화하는 방식이에요. $λ$ 값이 0이면 기존 1 주기 타겟 업데이트, 1에 가까워지면 투영 Q-값 반복과 유사한 결과를 보여줘요.

선형 Q-러닝 환경에서 이 방식을 스위칭 시스템 모델과 관련 도구를 활용해 연구했어요. 이 방식은 결정론적 환경에서 명확하게 분석했지만, 확률적 강화 학습 환경에도 적용 가능해요.

연구는 현대 딥 Q-러닝에서 흔히 사용되는 타겟 업데이트 방식의 안정화 기전을 이해하는 데 기여할 수 있어요.

##Q러닝##강화학습##선형Q러닝##타겟업데이트

매일 핵심 AI 소식을 한국어로, 빠르게