연구자가 Claude, GPT, Kimi 등 주요 LLM이 주사위를 굴릴 때 거의 항상 '4'를 출력하는 현상을 발견했어요. 이 문제는 모델이 탐험 대신 기존 전략만 따르는 문제와 관련돼요. 연구자는 모델을 재훈련하여 각 숫자가 약 1/6의 확률로 나올 수 있도록 만들었어요.
주사위 굴리기 재훈련 과정과 결과를 블로그에 상세히 기록했으며, 관련 링크는 댓글에서 확인할 수 있어요. 이 문제는 강화 학습에서 모델의 탐험 능력을 향상시키는 데 중요한 시사점을 제공해요.