Pulse · AI 뉴스

최적 계수 보정 기반 강화 학습 멀티 토큰 예측 공동 훈련

RLVR · 2026-05-27

연구진은 강화 학습(RL)과 멀티 토큰 예측(MTP)을 결합한 훈련 방식에서 성능 저하 문제를 분석하고, 최적 계수 보정(OCC) 기법을 제안했습니다.

OCC는 MTP 훈련 방식의 세 가지 체제를 통일적으로 설명하고, 온라인 로그 확률을 활용하여 최적 계수를 추적하며, 기존 방식보다 성능을 향상시킵니다.

6개의 수학적 추론 벤치마크에서 OCC는 기존 방식보다 성능이 우수하거나 동등한 결과를 보여주며, RL과 MTP의 공동 훈련 성능을 개선했습니다.

##강화학습##언어모델##MTP##RLVR##OCC

매일 핵심 AI 소식을 한국어로, 빠르게