연구진은 Llama 3.1과 Qwen 2.5 모델의 혐오 발언 평가 속성 정렬을 분석했어요. 모델들은 폄훼, 공격 등 명시적 속성에는 강하지만 존중, 감정 등 평가적 속성에서는 인간 판단과 반대되는 경향을 보였어요.
인구 통계 조건부 설정은 모델 신뢰도를 떨어뜨릴 뿐 정렬을 개선하지 못했어요. 속성 기반 LLM 예측을 결합해 Measuring Hate Speech 코퍼스의 혐오 발언 점수를 재구성해 최대 0.71의 R² 값을 달성했어요.
속성 분해는 엔드투엔드 라벨 예측보다 풍부하고 인간과 일치하는 신호를 회수하는 데 효과적이며, 직접 프롬프트 기반의 성능을 능가했어요.