연구진이 RL 학습의 주요 병목 현상인 rollout 단계를 가속화하기 위해 MTP(Multi-Token Prediction)를 활용하는 Bebop 방법을 제시했어요. 모델 엔트로피 변동에 의해 MTP 수용률이 제한된다는 점을 밝혀냈어요. 새로운 TV 손실 함수를 제안하여 MTP 수용률을 개선하고, Qwen3.5, Qwen3.6, Qwen3.7 모델의 비동기 RL 학습 속도를 최대 1.8배 향상시켰어요.
MTP 수용률은 모델 엔트로피 변동에 의해 제한되며, 거부 샘플링을 통해 엔트로피로 인한 문제를 완화할 수 있다는 사실을 확인했어요. 기존 MTP 학습 목표가 최적화되지 않았음을 지적하고, 새로운 TV 손실 함수를 통해 수용률을 최대 95%까지 끌어올렸어요.
사전 RL MTP 학습이 온라인 MTP 업데이트 없이 일관된 수용률과 속도를 유지하는 데 효과적임을 입증했어요. 수학적 추론, 코드 생성, 에이전트 작업 등 다양한 분야에서 성능 향상을 확인했어요.
Bebop는 기존 MTP 학습 방식의 한계를 극복하고 RL 학습 효율성을 높이는 데 기여할 것으로 기대돼요.