Pulse · AI 뉴스

다국어 혐오 표현 탐지 성능 비교 분석: 최신 임베딩 기법 평가

Hugging Face · 2026-04-16

본 연구는 리투아니아어, 러시아어, 영어 등 다국어 환경에서 최신 다국어 문장 임베딩 모델이 혐오 표현 탐지에 얼마나 기여하는지 분석합니다.

새로운 리투아니아어 혐오 표현 코퍼스인 LtHate를 구축하고, potion, gemma, bge, snow, jina, e5 등 6개의 임베딩 모델을 벤치마킹했습니다.

지도 학습 모델이 원 클래스 이상 탐지 모델보다 우수한 성능을 보였으며, 최적 설정에서 리투아니아어 80.96% 정확도를 달성했습니다.

##혐오표현##다국어##임베딩

매일 핵심 AI 소식을 한국어로, 빠르게