연구진은 LLM이 생성한 이야기의 사회적 편향을 분석하기 위한 다국어 데이터셋 BIASEDTALES-ML을 공개했어요. BIASEDTALES-ML은 8개 언어로 구성된 약 35만 개의 아동용 이야기 데이터셋으로, 다양한 언어 및 문화권에서의 LLM 스토리 생성 패턴을 분석할 수 있도록 설계됐어요. 연구 결과, 영어 중심의 평가 방식으로는 다국어 환경에서 LLM의 사회적 편향을 제대로 파악하기 어렵다는 점을 확인했어요.