Pulse · AI 뉴스

LLM 강화 학습, 균일 토큰 신뢰 영역을 넘어선 CPPO 제안

CPPO · 2026-06-09

연구진이 LLM 강화 학습의 신뢰 영역 문제를 해결하기 위해 CPPO(Cumulative Prefix-divergence Policy Optimization)를 제안했어요. 기존 방식은 토큰별로 균일한 제한을 두어, 초기 단계의 오류가 누적되는 문제를 간과하고 탐색을 지나치게 제한했어요.

CPPO는 위치 가중치 제한과 누적 접두사 예산을 활용하여, 초기 단계에서는 엄격한 제한을 두고 후반 단계에서는 완화하는 방식으로 토큰별 업데이트를 조정해요. 이를 통해 시퀀스 수준의 드리프트를 줄이고 안정적인 학습을 가능하게 해요.

실험 결과, CPPO는 다양한 모델 규모에서 학습 안정성을 높이고 추론 정확도를 향상시키는 데 기여했어요.

##LLM##강화학습##CPPO##정책최적화
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기