Pulse · AI 뉴스

GRPO 환경에서 Gradient 기반 LoRA Rank Allocation은 효과 없을까: 실험적 연구

Qwen · 2026-05-08

연구진은 Qwen 2.5 1.5B 모델을 GSM8K 데이터셋으로 GRPO 학습하면서, Gradient-based LoRA Rank Allocation이 오히려 성능을 저하시킨다는 사실을 발견했습니다.

SFT 환경에서는 중요 레이어에 더 많은 파라미터를 할당하는 Adaptive Rank Allocation이 효율을 높이지만, GRPO 환경에서는 uniform allocation에 비해 정확도가 4.5 포인트나 떨어졌습니다.

연구 결과, GRPO 환경에서는 모든 레이어가 의미 있는 Gradient 신호를 전달하며, SFT 환경에서 나타나는 Gradient 중요도 예측 실패와 Gradient 증폭 효과가 원인으로 지목됩니다.

##LoRA##GRPO##강화학습##Qwen##alignment

매일 핵심 AI 소식을 한국어로, 빠르게