연구진은 수학적 추론에서 다양한 해결 경로 생성의 중요성을 강조하며 N-GRPO라는 새로운 탐색 전략을 제시했어요. N-GRPO는 GRPO 프레임워크에 통합되어 토큰 레벨 샘플링이나 임베딩 레벨 노이즈를 사용하지 않고 의미론적 이웃 혼합을 활용해요.
N-GRPO는 앵커 토큰과 가장 가까운 의미론적 이웃의 임베딩을 혼합하여 입력 표현을 구성하며, 이를 통해 다양성을 주입하면서도 지역적 의미론적 범위를 준수해요.
DeepSeek-R1-Distill-Qwen 모델에 대한 실험 결과, N-GRPO는 수학적 추론 벤치마크에서 강력한 기본 성능을 능가하고, 분산 환경에서도 강력한 일반화 능력을 보여줬어요.