연구진은 LLM의 사회적 편향을 연구하기 위한 다국어 데이터셋과 평가 파이프라인인 StereoTales를 발표했습니다. 이 데이터셋은 10개 언어, 79개의 사회-인구학적 속성을 포함하며, 23개의 LLM이 생성한 65만 개 이상의 이야기를 담고 있습니다.
연구 결과, 모든 LLM 모델이 개방형 생성에서 해로운 고정관념을 드러냈으며, 프롬프트 언어에 따라 특정 사회-인구학적 집단에 대한 편향이 증폭되는 경향을 보였습니다.
사람과 LLM의 해악 판단이 대체로 일치했으며 (Spearman ρ=0.62), 연구진은 StereoTales 평가 코드와 데이터셋을 공개하여 추가 분석을 지원합니다.