연구진은 사용자 선호도와 시간에 따라 변하는 컨텍스트 환경에서 추천을 제공하는 선형 컨텍스트 확률적 다중 팔 밴딧(multi-armed bandits) 문제를 다루고 있어요. 이 문제를 선형 밴딧 문제로 단순화하고, 제어 전략보다 성능이 떨어지지 않도록 제약 조건을 만족하는 알고리즘을 개발했어요.
Dri-MED라는 알고리즘을 제안했는데, 이 알고리즘은 기존 MED 전략을 기반으로 변동성이 큰 노이즈를 처리하도록 개선됐어요. Dri-MED는 제약 조건을 준수하면서도 효율적인 성능을 보장해요.
실험 결과, Dri-MED는 변화를 고려하지 않거나 선호도를 무시하는 기존 방식보다 훨씬 뛰어난 성능을 보여줬어요.