Pulse · AI 뉴스

다양한 문화적 선호도를 반영하는 보상 모델 훈련 방법 연구

minsik-ai · 2026-06-17

연구팀은 LLM이 다양한 문화권의 선호도를 정확하게 반영하고 편향을 줄이는 데 초점을 맞춘 새로운 보상 모델 훈련 알고리즘(SCPO)을 개발했어요.

SCPO는 PRISM과 GlobalOpinionQA 데이터셋에서 소수 문화권 보상 모델 성능을 최대 7% 향상시키고, 전체 훈련 데이터 효율성을 최대 280% 높였어요.

개발팀은 GitHub에서 관련 코드를 공개했으며, SCPO를 통해 문화권별 선호도 평가에서 편향을 완화하는 효과를 확인했어요.

##LLM##보상모델##문화적선호도##SCPO

매일 핵심 AI 소식을 한국어로, 빠르게