Pulse · AI 뉴스

DelTA: 강화 학습에서 검증 가능한 보상을 위한 차등 토큰 신용 할당

Qwen · 2026-05-20

연구진은 강화 학습에서 검증 가능한 보상(RLVR)을 활용한 LLM의 추론 능력 향상 과정에서 응답 레벨 보상이 토큰 레벨 확률 변화로 어떻게 변환되는지 분석했어요.

DelTA는 RLVR 업데이트가 토큰-그래디언트 벡터에 대한 선형 판별기로 작동하며, 어떤 토큰 확률을 증가시키고 감소시키는지 결정한다는 것을 보여주는 차등화된 토큰 신용 할당 방법이에요.

DelTA는 Qwen3-8B-Base와 Qwen3-14B-Base 모델에서 각각 3.26점, 2.62점의 평균 성능 향상을 보였으며, 코드 생성 및 다양한 환경에서도 일반화 능력을 입증했어요.

##강화학습##LLM##RLVR##DelTA

매일 핵심 AI 소식을 한국어로, 빠르게