Pulse · AI 뉴스

소프트맥스 멀티 암드 반딧 (MAB) 에서의 사라지는 L2 정규화

arXiv cs.LG · 2026-05-05

멀티 암드 반딧(MAB) 알고리즘은 강화 학습의 핵심이며 이론적, 수치적으로 연구되어 왔습니다.

L2 정규화 파라미터가 사라지는 경우의 수렴을 분석할 적합한 이론적 프레임워크를 찾지 못했습니다.

표준 벤치마크에서 L2 정규화가 수치적으로 유리하다는 것을 경험적으로 확인했습니다.

##강화학습##MAB##정규화##수렴

매일 핵심 AI 소식을 한국어로, 빠르게