연구진은 제한된 적응성을 가진 컨텍스트 슬레이트 밴딧 문제를 일반화 선형 보상 모델(GLM) 하에서 연구했어요.
배치(batched) 및 드물게 전환(rarely-switching) 환경에서 B-SlateGLinCB와 RS-SlateGLinCB 알고리즘을 제안하고 각각 $\mathcal{O}(Nd^{3/2}\sqrt{T})$ 및 $\mathcal{O}(Nd\sqrt{T})$의 후회 경계를 달성했어요.
제안된 알고리즘은 기존 밴딧 알고리즘과 달리 비선형성 파라미터($κ$)에 영향을 받지 않으며, 라운드당 $ ext{poly}(N)$의 계산 시간만 필요해요.
실험 결과, B-SlateGLinCB는 기존 알고리즘보다 우수한 성능을 보였고, 언어 모델의 맥락 내 예제 선택 작업에서도 뛰어난 성능을 입증했어요.