Pulse · AI 뉴스

DelTA: 강화 학습에서 검증 가능한 보상을 위한 차등 토큰 크레딧 할당

Qwen · 2026-05-21

연구진은 강화 학습에서 검증 가능한 보상(RLVR)을 활용한 대규모 언어 모델의 추론 능력 향상에 대한 연구를 진행했어요. DelTA는 토큰 크레딧 할당 방법을 제안하여, RLVR 업데이트 방향을 재구성하고 성능을 향상시켰어요. 7개의 수학 벤치마크에서 Qwen3-8B-Base 모델은 평균 3.26점, Qwen3-14B-Base 모델은 평균 2.62점의 성능 향상을 보였어요.

##강화학습##RLVR##DelTA##Qwen
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기