연구진은 인간 피드백을 활용하여 774M 파라미터 GPT-2 언어 모델을 다양한 작업에 대해 미세 조정했어요. 요약 작업에서 레이블러들은 입력에서 문장을 그대로 복사하는 것을 선호했는데, 모델은 이를 학습하여 그대로 복사하는 경향을 보였어요. 요약 작업에는 6만 개의 인간 레이블이 필요했지만, 간단한 스타일 텍스트 연장 작업에는 5천 개만 필요했어요.