연구팀은 LLM 정렬에 사용되는 보상 모델이 사회적으로 바람직하지 않은 선호도를 반영할 수 있음을 지적하며, 편향, 안전, 도덕성, 윤리적 추론 4가지 영역에 대한 평가 프레임워크를 제시했어요.
5개의 공개 보상 모델과 2개의 지시 튜닝 모델을 분석한 결과, 모델별로 사회적 지능 수준이 낮고, 사회적으로 바람직하지 않은 선택지를 선호하며, 체계적인 편향을 야기하는 경향이 있음을 확인했어요.
편향 회피는 상황 맥락에 대한 민감도를 낮출 수 있다는 점을 발견하며, 표준 보상 벤치마크가 사회적 정렬을 평가하기에 부족함을 강조하며, 직접적인 사회적 선호도 측정이 필요하다고 주장해요.