Pulse · AI 뉴스

AGoQ: LLM 분산 학습을 위한 메모리 효율적인 활성화 및 그래디언트 양자화

arXiv cs.CL · 2026-05-01

AGoQ는 LLM 학습 시 활성화와 그래디언트 양자화를 통해 GPU 메모리 사용량을 줄이는 새로운 기술입니다. 활성화 레이어별로 적절한 비트 폭을 할당하고, 8비트 그래디언트 저장 및 통신을 통해 메모리 사용량과 통신 시간을 단축합니다. 8B~32B LLaMA 모델을 사용할 때 최대 52% 메모리 감소와 1.34배 빠른 학습 속도를 달성했습니다.

기존 Megatron-LM, COAT, DeepSpeed 대비 AGoQ는 학습 속도가 향상되었으며, 사전 학습 시 손실 수렴과 다운스트림 작업에서 유사한 정확도를 유지했습니다. 활성화는 거의 4비트, 그래디언트는 8비트로 저장하여 메모리 효율성을 높였습니다.

AGoQ는 64개 GPU 클러스터에서 다양한 크기의 LLM을 사용하여 실험했으며, 기존 방식 대비 성능 향상을 입증했습니다.

##LLM##양자화##분산학습##메모리효율##AGoQ

매일 핵심 AI 소식을 한국어로, 빠르게

App Store 에서 Pulse 받기 앱에서 열기