연구진은 수학적 추론에서 LLM의 rollout 단계에서 다양한 솔루션 경로 생성이 중요함을 강조했어요. 기존 rollout 기법은 토큰 레벨 샘플링의 불필요한 경로와 임베딩 레벨 노이즈의 의미적 일관성 문제를 동시에 겪고 있었어요. N-GRPO는 Group Relative Policy Optimization(GRPO) 프레임워크에 Semantic Neighbor Mixing 기법을 통합하여 이러한 문제를 해결했어요.
N-GRPO는 앵커 토큰과 가장 가까운 의미적 이웃의 임베딩을 혼합하여 다양성을 주입하면서도 로컬 의미적 범위를 준수해요. DeepSeek-R1-Distill-Qwen 모델에 대한 실험 결과, N-GRPO는 수학적 추론 벤치마크에서 강력한 기준 성능을 능가하고, 분산 환경에서도 뛰어난 일반화 능력을 보여줬어요.
연구 결과는 LLM의 수학적 추론 성능 향상을 위한 새로운 탐색 전략의 가능성을 제시하며, 향후 LLM의 문제 해결 능력 개선에 기여할 것으로 기대돼요.