연구진은 강화 학습 기반 검증 가능한 보상(RLVR)에서 롤아웃 샘플 재사용으로 인한 성능 저하 문제를 해결하기 위해 '비율적 가중치 발산(DWD)' 현상을 발견했어요.
DWD는 LM 헤드 가중치 변화가 급증하는 시점으로, 성능 저하와 동시에 나타나며, LLM과 작업 유형에 관계없이 일관되게 관찰돼요.
DWD 현상을 감지하는 동적 그래디언트 게이팅(DGG) 기법을 제안하여, 기존 방식 대비 최대 2.93배의 샘플 효율과 2.14배의 속도 향상을 달성했어요.