Pulse · AI 뉴스

N-GRPO: 임베딩 레벨 이웃 혼합을 통한 강화 정책 최적화

DeepSeek-R1-Distill-Qwen · 2026-06-09

연구진은 수학적 추론에서 다양한 해결 경로 생성의 중요성을 강조하며 N-GRPO라는 새로운 탐색 전략을 제시했어요. N-GRPO는 GRPO 프레임워크에 통합되어 토큰 레벨 샘플링이나 임베딩 레벨 노이즈를 사용하지 않고 의미론적 이웃 혼합을 활용해요.

N-GRPO는 앵커 토큰과 가장 가까운 의미론적 이웃의 임베딩을 혼합하여 입력 표현을 구성하며, 이를 통해 다양성을 주입하면서도 지역적 의미론적 범위를 준수해요.

DeepSeek-R1-Distill-Qwen 모델에 대한 실험 결과, N-GRPO는 수학적 추론 벤치마크에서 강력한 기본 성능을 능가하고, 분산 환경에서도 강력한 일반화 능력을 보여줬어요.

##강화학습##정책최적화##LLM##수학추론

매일 핵심 AI 소식을 한국어로, 빠르게