Anthropic이 GPRL(General Preference Reinforcement Learning)을 제안하며, LLM 학습 방식의 새로운 가능성을 제시했어요. GPRL은 온라인 강화 학습과 선호도 최적화의 장점을 결합하여, 기존 방식의 한계를 극복하고자 했어요. Llama-3-8B-Instruct 모델을 기반으로 AlpacaEval~2.0에서 56.51%의 승률을 기록하며, SimPO 및 SPPO보다 뛰어난 성능을 보였어요.