연구진은 혐오 표현 탐지에서 인간의 근거(token-level human rationales)의 다양성을 탐구하고, 인간의 라벨과 근거를 평가하는 방법을 개선하고자 합니다.
분류 및 설명 가능성 지표를 통일된 프로토콜 하에 재구현하고, 라벨(hard/soft)과 근거 표현 방식(hard/intermediate/soft)에 따른 모델 행동을 평가했습니다.
연구 결과, hard 및 soft 지표 모두 softer representation을 선호하며, 주관적인 NLP에서 평가 방식을 재고해야 함을 시사합니다.