Pulse · AI 뉴스

RolloutPipe: 분산 LLM 강화 학습에서 파이프라인 배포 및 훈련 중첩

Qwen · 2026-06-25

RolloutPipe는 분산 강화 학습(RLVR) 시스템을 위한 새로운 프레임워크입니다. 기존 방식은 롤아웃 생성과 정책 훈련이 동기화되어 훈련기 GPU 풀이 유휴 상태로 대기하는 문제가 있었어요.

RolloutPipe는 롤아웃을 완전 그룹 파이프라인으로 전환하여 훈련 중인 그룹은 훈련기로 이동하고, 아직 생성 중인 그룹은 뒤에 있도록 하여 훈련 시작 전 롤아웃 완료를 기다리는 시간을 줄였습니다.

Qwen3-1.7B 모델을 활용한 실험에서 롤아웃-훈련 종료 시간은 30.7~42.3% 단축되고, 훈련기 대기 비율은 37~76% 감소했습니다.

RolloutPipe는 완전 그룹 파이프라인(CGP)과 최전선 그룹 디스패치(FGD) 기술을 통해 훈련 시작 전 롤아웃 완료를 기다리는 시간을 줄이고, 온정책 정확성을 유지합니다.

##LLM##강화학습##RLVR##Qwen3##RolloutPipe

매일 핵심 AI 소식을 한국어로, 빠르게