Pulse · AI 뉴스

LLM의 미세 감정 분류 능력 평가: 감정 격차를 정량화하다

Gemini · 2026-07-01

Anthropic의 Claude, OpenAI의 GPT-5.4, Google의 Gemini를 대상으로 미세 감정 분류 능력을 평가했어요. 13개 감정 카테고리로 구성된 데이터셋을 활용해 3가지 모델을 테스트했어요.

Gemini가 가장 높은 정확도(39.9%)와 macro-F1 점수(0.363)를 기록했고, GPT-5.4는 각각 38.8%, 0.291, Claude는 38.0%, 0.159를 기록했어요.

모든 모델은 비꼬임과 욕망을 잘 인식하지만, 사랑, 혼란, 수치심을 인식하는 데 어려움을 겪으며, Claude는 예측 불균형 편향을 보였어요.

##LLM##감정분류##OpenAI##Anthropic##Google

매일 핵심 AI 소식을 한국어로, 빠르게