Pulse · AI 뉴스

LLM 정렬, 혐오 발언 평가 속성 기반 진단

Llama · 2026-05-26

연구진은 Llama 3.1과 Qwen 2.5 모델의 혐오 발언 평가 속성 정렬을 분석했어요. 모델들은 폄훼, 공격 등 명시적 속성에는 강하지만 존중, 감정 등 평가적 속성에서는 인간 판단과 반대되는 경향을 보였어요.

인구 통계 조건부 설정은 모델 신뢰도를 떨어뜨릴 뿐 정렬을 개선하지 못했어요. 속성 기반 LLM 예측을 결합해 Measuring Hate Speech 코퍼스의 혐오 발언 점수를 재구성해 최대 0.71의 R² 값을 달성했어요.

속성 분해는 엔드투엔드 라벨 예측보다 풍부하고 인간과 일치하는 신호를 회수하는 데 효과적이며, 직접 프롬프트 기반의 성능을 능가했어요.

##LLM##혐오발언##정렬
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기