Pulse · AI 뉴스

허브 버킷을 활용한 1조 파라미터 모델 배포: TRL의 델타 가중치 동기화

Hugging Face · 2026-05-27

TRL(Transformer Reinforcement Learning)이 델타 가중치 동기화를 통해 비동기 RL(Reinforcement Learning) 훈련 효율성을 높이는 방법을 공개했어요. 기존 방식은 매 단계마다 모델 전체를 전송해야 했지만, 변경된 부분만 압축하여 전송하는 방식으로 대폭 개선됐어요.

bf16 가중치의 경우, 연속적인 RL 옵티마이저 단계 사이에 약 99%의 가중치가 동일하게 유지되는 점을 활용했어요. 이를 통해 Qwen3-0.6B 모델의 경우, 단계별 페이로드가 1.2GB에서 20~35MB로 감소했어요.

연구진은 훈련기, vLLM, Wordle 환경이 각각 Hugging Face Space에 위치하고, 가중치는 단일 허브 버킷을 통해 전달되는 분산 훈련 환경을 구축했어요. 이를 통해 별도의 클러스터, RDMA, VPN 없이 비동기 RL 훈련을 더욱 저렴하게 만들 수 있게 됐어요.

##TRL##비동기RL##가중치동기화##HuggingFace##Qwen
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기