Pulse · AI 뉴스

GRAIL: 강화 학습에서 검증 가능한 보상을 위한 그래디언트 재가중화

Qwen · 2026-06-03

연구진은 LLM의 수학적 추론 성능을 개선하기 위해 그래디언트 재가중화 방식인 GRAIL을 제안했어요. GRAIL은 최종 답변에 민감한 토큰에 더 많은 가중치를 부여하여 불필요한 토큰 업데이트를 줄여요. Qwen3, R1-distilled, OctoThinker 모델군에서 GRPO보다 평균 3.6% 정확도 향상 효과를 보였어요.

GRAIL은 과정 수준의 감독 없이도 세밀한 추론 정렬을 달성할 수 있는 방법으로, 토큰별 이점을 재가중화하는 방식이에요. 기존 방식의 단점을 보완하여 불필요한 토큰 업데이트를 줄이고 핵심 추론에 집중하도록 설계됐어요.

연구 결과, GRAIL은 Pass@3 지표에서도 3.05% 향상된 성능을 보여, LLM의 수학적 추론 능력 향상에 효과적인 방법임을 입증했어요.

##강화학습##LLM##추론##정렬
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기