Pulse · AI 뉴스

시스템 통합 추론 디코딩을 통한 RL 사후 훈련 롤아웃 가속화

NeMo-RL · 2026-04-30

최첨단 언어 모델의 RL 사후 훈련 과정에서 롤아웃 생성 속도가 병목 현상을 일으키고 있어요.

연구진은 롤아웃 속도를 유지하면서도 대상 모델의 출력 분포를 보존하는 추론 디코딩 기법을 NeMo-RL에 적용했어요.

8B 규모의 추론 사후 훈련 작업에서 추론 디코딩은 롤아웃 처리량을 1.8배 향상시켰고, 235B 규모에서는 최대 2.5배의 엔드투엔드 훈련 속도 향상을 기대할 수 있어요.

##RL##추론디코딩##NeMo-RL

매일 핵심 AI 소식을 한국어로, 빠르게