Pulse · AI 뉴스

어떤 토큰이 중요할까? RLVR에서 상대적 놀람 지수 기반 적응적 토큰 선택

Qwen · 2026-06-30

연구진은 RLVR(Verifiable Rewards with Reinforcement Learning) 학습 시 토큰 선택 전략의 중요성을 분석했어요.

새로운 지표인 상대적 놀람 지수(RSI, Relative Surprisal Index)를 제안하여 토큰의 엔트로피와 선택된 토큰의 확률을 결합했어요.

RSI-S(RSI Selection)라는 토큰 필터링 방법을 통해 기존의 상반되는 학습 전략을 조화시키고 AIME 및 AMC 벤치마크에서 평균 정확도를 2~3% 향상시켰어요.

##RLVR##LLM##강화학습##토큰선택##RSI

매일 핵심 AI 소식을 한국어로, 빠르게