Pulse · AI 뉴스

합치되지 않는 근거: 혐오 표현 탐지에서 분류 및 설명 가능성 평가 재고

arXiv cs.CL · 2026-05-30

연구진은 혐오 표현 탐지에서 인간의 근거(token-level human rationales)의 다양성을 탐구하고, 인간의 라벨과 근거를 평가하는 방법을 개선하고자 합니다.

분류 및 설명 가능성 지표를 통일된 프로토콜 하에 재구현하고, 라벨(hard/soft)과 근거 표현 방식(hard/intermediate/soft)에 따른 모델 행동을 평가했습니다.

연구 결과, hard 및 soft 지표 모두 softer representation을 선호하며, 주관적인 NLP에서 평가 방식을 재고해야 함을 시사합니다.

##혐오표현##NLP##설명가능성##평가

매일 핵심 AI 소식을 한국어로, 빠르게