연구진은 LLM의 수학적 추론 성능을 개선하기 위해 그래디언트 재가중화 방식인 GRAIL을 제안했어요. GRAIL은 최종 답변에 민감한 토큰에 더 많은 가중치를 부여하여 불필요한 토큰 업데이트를 줄여요. Qwen3, R1-distilled, OctoThinker 모델군에서 GRPO보다 평균 3.6% 정확도 향상 효과를 보였어요.
GRAIL은 과정 수준의 감독 없이도 세밀한 추론 정렬을 달성할 수 있는 방법으로, 토큰별 이점을 재가중화하는 방식이에요. 기존 방식의 단점을 보완하여 불필요한 토큰 업데이트를 줄이고 핵심 추론에 집중하도록 설계됐어요.
연구 결과, GRAIL은 Pass@3 지표에서도 3.05% 향상된 성능을 보여, LLM의 수학적 추론 능력 향상에 효과적인 방법임을 입증했어요.