연구진은 대규모 언어 모델(LLM) 강화 학습(RL)에서 발생하는 성능 정체 문제를 해결하기 위해 새로운 방법인 Entrocraft을 제안했어요.
Entrocraft은 사용자가 원하는 엔트로피 스케줄을 구현하는 간단한 거부 샘플링 방식으로, 기존 방법의 불안정성을 개선하고 성능 향상을 가능하게 해요.
실험 결과, Entrocraft은 일반화 성능, 출력 다양성, 장기적인 학습 효과를 높여 더 작은 모델이 더 큰 모델보다 뛰어난 성능을 보이도록 만들었어요.