Pulse · AI 뉴스

잔차 가중치 보정 헤비볼 Q-러닝

arXiv cs.AI · 2026-06-25

본 논문은 강화 학습(RL)을 위한 수정된 헤비볼 Q-러닝 방법을 제안하고 수렴성을 입증했어요. 표준 Q-러닝보다 더 빠르게 수렴하는 조건을 파악했어요. 선형 함수 근사 Q-러닝으로 확장하여 유사한 수렴 및 가속화 결과를 도출했어요.

분석은 Q-러닝 알고리즘의 스위치된 선형 시스템(SLS) 표현을 기반으로 하며, 관련 스위칭 패밀리의 공동 스펙트럴 반지름(JSR)을 활용했어요. 이 SLS 관점은 표준 Q-러닝 분석에서 흔히 사용되지 않으며, 헤비볼 모멘텀이 Q-러닝을 어떻게 가속화하는지에 대한 새로운 통찰력을 제공해요.

이 방법은 기존 Q-러닝 분석에 대한 보완적인 프레임워크를 제공하며, 강화 학습 연구에 새로운 시각을 제시할 것으로 기대돼요.

##강화학습##Q러닝##헤비볼##수렴성
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기