연구진은 6개의 대규모 언어 모델(LLM)을 대상으로 교차적 인구 통계 속성을 고려한 공정성을 평가했어요. 모델의 정확도는 고정관념과 일치할 때 더 높게 나타났으며, 특히 인종-성별 교차점에서 이러한 경향이 두드러졌어요. 연구 결과, 현재 LLM은 교차적 환경에서 일관되고 공정하게 작동하지 않으며, 정확도 외에 편향, 하위 그룹 공정성, 일관성 지표를 종합적으로 평가해야 함을 강조했어요.