연구진은 강화 학습에서 보상 없이 학습한 행동 기반 모델(BFM)이 온라인 환경에서 새로운 보상에 맞춰 적응하는 방안을 제시했어요. 기존 방식은 환경과의 상호작용을 통해 보상을 얻는 온라인 학습 방식과 달리, 미리 생성된 상태-보상 쌍 데이터셋을 활용하는 한계가 있었어요. 연구진은 BFM 자체를 활용하여 탐색 정책을 생성하고, 상위 신뢰 구간(UCB)에 기반한 불확실성 행렬 최소화를 통해 온라인 학습 문제를 해결했어요.