멀티 암드 반딧(MAB) 알고리즘은 강화 학습의 핵심이며 이론적, 수치적으로 연구되어 왔습니다. L2 정규화 파라미터가 사라지는 경우의 수렴을 분석할 적합한 이론적 프레임워크를 찾지 못했습니다. 표준 벤치마크에서 L2 정규화가 수치적으로 유리하다는 것을 경험적으로 확인했습니다.