Pulse · AI 뉴스

GPRL: 일반적 선호도 강화 학습으로 LLM 성능 향상

Llama-3-8B-Instruct · 2026-05-19

Anthropic이 GPRL(General Preference Reinforcement Learning)을 제안하며, LLM 학습 방식의 새로운 가능성을 제시했어요. GPRL은 온라인 강화 학습과 선호도 최적화의 장점을 결합하여, 기존 방식의 한계를 극복하고자 했어요. Llama-3-8B-Instruct 모델을 기반으로 AlpacaEval~2.0에서 56.51%의 승률을 기록하며, SimPO 및 SPPO보다 뛰어난 성능을 보였어요.

##LLM##강화학습##GPRL##Llama3
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기