연구진은 PRISM 데이터셋 참여자 530명을 대상으로 개인화된 언어 모델과 일반 모델의 성능을 비교하는 대규모 실험을 진행했어요.
개인화된 파인튜닝(P-DPO)이 일반 모델과 개인화된 프롬프팅 모두를 능가했지만, 개인별 선호도 데이터에 적응하는 것은 다양한 인구의 선호도를 기반으로 훈련하는 것과 큰 차이가 없었어요.
시뮬레이션 사용자를 활용한 실험은 모델 계층 구조를 복제했지만, 개인별 판단에 대한 인간의 일관성 기준에는 미치지 못하는 결과를 보였어요.