연구진이 RL 학습 속도를 높이는 베밥(Bebop) 방법을 제시했어요. 베밥은 MTP(Multi-Token Prediction)의 수용률 저하 문제를 해결하기 위해 개발됐어요. 엔트로피 변동에 따른 MTP 수용률 제약을 분석하고, TV 손실 함수를 통해 거부 샘플링 수용률을 최적화했어요. Qwen3.5, Qwen3.6, Qwen3.7 모델의 비동기 RL 학습에서 최대 1.8배 속도 향상을 달성했어요.
기존 MTP 학습 목표가 비효율적임을 발견하고, 엔드투엔드 TV 손실 함수를 제안하여 MTP 수용률을 개선했어요. 이를 통해 수학적 추론, 코드 생성, 에이전트 작업에서 최대 25%의 추론 처리량 증가를 얻을 수 있었어요.
RL 학습 과정에서 MTP를 온라인으로 업데이트하는 대신, 사전 RL MTP 학습을 통해 일관된 수용률과 속도를 유지하는 전략을 제안했어요. 이는 비용 효율적인 방법으로 RL 학습 속도를 높일 수 있음을 의미해요.
베밥은 MTP 수용률이 엔트로피 변동에 의해 제한된다는 점을 밝혀냈으며, 거부 샘플링을 통해 엔트로피의 영향을 완화하는 방법을 제시했어요. 이러한 분석과 개선을 통해 RL 학습 효율성을 크게 향상시켰어요.