본 연구는 강화 학습을 활용한 LLM 미세 조정 과정에서 정책 엔트로피의 변화를 분석하는 이론적 프레임워크를 제시합니다. 토큰 수준에서 정책 업데이트가 엔트로피에 미치는 영향에 대한 이해를 높이고자 했습니다.
분석 결과, 엔트로피 극성이라는 새로운 개념이 도출되었으며, 이는 샘플링된 업데이트가 엔트로피를 얼마나 확장하거나 축소하는지 예측하는 지표로 활용될 수 있습니다.
Polarity-Aware Policy Optimization (PAPO)이라는 새로운 최적화 기법을 제안하여 엔트로피 극성의 양방향성을 보존하고, 이를 통해 효율적인 학습과 더 나은 보상 개선을 달성했습니다.