연구팀은 독일어 LLM의 대명사 충실도, 추론 능력, 편향을 측정하기 위한 GRUFF 데이터셋을 공개했어요. 독일어는 영어보다 문법적 성별과 일치성이 더 중요하기 때문에, GRUFF는 네 가지 성별 일치 시스템과 네 가지 대명사 세트를 포함하고 있어요.
연구 결과, LLM은 명시적 맥락이 없을 때 남성 및 여성 실체에 대한 강한 문법적 일치성을 보이지만, 'xier' 및 'en'과 같은 새로운 대명사에는 그렇지 않다는 것을 확인했어요.
직업적 고정관념은 문법적 격변화에 따라, 그리고 대부분의 모델에서 일관성이 없으며, 특히 아키텍처가 유사한 모델에서 더욱 두드러졌어요.