최첨단 언어 모델의 RL 사후 훈련 과정에서 롤아웃 생성 속도가 병목 현상을 일으키고 있어요. 연구진은 롤아웃 속도를 유지하면서도 대상 모델의 출력 분포를 보존하는 추론 디코딩 기법을 NeMo-RL에 적용했어요. 8B 규모의 추론 사후 훈련 작업에서 추론 디코딩은 롤아웃 처리량을 1.8배 향상시켰고, 235B 규모에서는 최대 2.5배의 엔드투엔드 훈련 속도 향상을 기대할 수 있어요.