본 논문은 메모리, 연산, 에너지 제약이 있는 기기에서 컨텍스트ual Bandit (CB) 에이전트를 배포하기 위한 새로운 방법인 확률적 HD-CB를 제안합니다.
HD-CB는 기존 선형 CB 알고리즘보다 빠른 수렴 속도와 메모리 효율성을 제공하지만, 기존 학습 규칙은 높은 정밀도를 요구하는 문제가 있었습니다.
연구 결과, 확률적 HD-CB는 동일한 정밀도에서 이진화된 HD-CB보다 우수한 성능을 보이며, 컴포넌트 당 3비트만 사용해도 HD-CB에 근접하는 성능을 달성했습니다.