Pulse · AI 뉴스

제한적 적응 환경의 컨텍스트 슬레이트 밴딧 문제 연구

GLM · 2026-06-30

연구진은 제한된 적응성을 가진 컨텍스트 슬레이트 밴딧 문제를 일반화 선형 보상 모델(GLM) 하에서 연구했어요.

배치(batched) 및 드물게 전환(rarely-switching) 환경에서 B-SlateGLinCB와 RS-SlateGLinCB 알고리즘을 제안하고 각각 $\mathcal{O}(Nd^{3/2}\sqrt{T})$ 및 $\mathcal{O}(Nd\sqrt{T})$의 후회 경계를 달성했어요.

제안된 알고리즘은 기존 밴딧 알고리즘과 달리 비선형성 파라미터($κ$)에 영향을 받지 않으며, 라운드당 $ ext{poly}(N)$의 계산 시간만 필요해요.

실험 결과, B-SlateGLinCB는 기존 알고리즘보다 우수한 성능을 보였고, 언어 모델의 맥락 내 예제 선택 작업에서도 뛰어난 성능을 입증했어요.

##밴딧##머신러닝##최적화##GLM##컨텍스트

매일 핵심 AI 소식을 한국어로, 빠르게

App Store 에서 Pulse 받기 앱에서 열기