사람 피드백 기반 강화 학습을 활용하여 요약 능력이 향상된 언어 모델을 학습했어요. 기존 방식보다 사람이 선호하는 요약 결과물을 더 잘 생성하도록 훈련했어요. 이 기술은 언어 모델의 성능을 개선하는 데 기여할 수 있을 거예요.