연구진은 강화 학습이 언어 모델의 내부 표현을 형성할 때 기능적 복지라는 기존 표현을 동원한다는 증거를 제시했어요. 새로운 환경에서 훈련된 여러 언어 모델의 보상 및 처벌 경로 개념 벡터를 분석한 결과, 처벌 벡터는 부정적인 복지를 나타내는 경향을 보였어요. 이러한 효과는 다양한 요인을 통제하고 강화 학습을 지도 학습으로 대체해도 지속되며, 모델 훈련 이전에도 존재했어요.