Pulse · AI 뉴스

LLM 강화 학습, 토큰별 균일 신뢰 영역을 넘어: CPPO 제안

CPPO · 2026-06-10

연구진은 LLM 강화 학습 시 토큰별 균일 신뢰 영역의 한계를 지적했어요. 기존 방식은 자동 회귀 생성 과정의 비대칭성과 누적 전방향 드리프트를 고려하지 않아 문제점을 야기합니다. CPPO(Cumulative Prefix-divergence Policy Optimization)는 누적 전방향 드리프트를 반영한 토큰별 마스킹 규칙을 통해 정책 개선 범위를 제한하는 새로운 방법을 제시합니다.

CPPO는 위치 가중치 기반 임계값과 누적 전방향 예산 추적을 통해 초기 단계의 엄격한 제한과 후기 단계의 유연성을 확보하고 누적 오류를 방지합니다. 초기 단계에서는 더 엄격한 제한을, 후기 단계에서는 제약을 완화하는 방식으로 작동합니다.

실험 결과, CPPO는 학습 안정성을 향상시키고 다양한 모델 규모에서 추론 정확도를 크게 개선하는 것을 확인했습니다.

##LLM##강화학습##CPPO##정책최적화

매일 핵심 AI 소식을 한국어로, 빠르게

App Store 에서 Pulse 받기 앱에서 열기