GRAIL은 LLM의 수학적 추론을 개선하기 위해 토큰별로 장점을 재가중하는 방법입니다. 기존 방식의 단점을 보완하여, 최종 답변에 민감한 토큰에 더 많은 가중치를 부여합니다. Qwen3, R1-distilled, OctoThinker 모델군에서 GRPO보다 성능이 우수했습니다. 평균 정확도 3.60%, Pass@3 3.05% 향상을 보여, 세밀한 추론 정렬이 가능함을 입증했습니다.