Pulse · AI 뉴스

GRAIL: 강화 학습에서 검증 가능한 보상을 위한 그래디언트 재가중화

Qwen · 2026-06-03

GRAIL은 LLM의 수학적 추론을 개선하기 위해 토큰별로 장점을 재가중하는 방법입니다. 기존 방식의 단점을 보완하여, 최종 답변에 민감한 토큰에 더 많은 가중치를 부여합니다. Qwen3, R1-distilled, OctoThinker 모델군에서 GRPO보다 성능이 우수했습니다. 평균 정확도 3.60%, Pass@3 3.05% 향상을 보여, 세밀한 추론 정렬이 가능함을 입증했습니다.

##강화학습##LLM##추론##정렬
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기