연구팀은 LLM이 다양한 문화권의 선호도를 정확하게 반영하고 편향을 줄이는 데 초점을 맞춘 새로운 보상 모델 훈련 알고리즘(SCPO)을 개발했어요. SCPO는 PRISM과 GlobalOpinionQA 데이터셋에서 소수 문화권 보상 모델 성능을 최대 7% 향상시키고, 전체 훈련 데이터 효율성을 최대 280% 높였어요. 개발팀은 GitHub에서 관련 코드를 공개했으며, SCPO를 통해 문화권별 선호도 평가에서 편향을 완화하는 효과를 확인했어요.