Anthropic의 Claude, OpenAI의 GPT-5.4, Google의 Gemini를 대상으로 미세 감정 분류 능력을 평가했어요. 13개 감정 카테고리로 구성된 데이터셋을 활용해 3가지 모델을 테스트했어요.
Gemini가 가장 높은 정확도(39.9%)와 macro-F1 점수(0.363)를 기록했고, GPT-5.4는 각각 38.8%, 0.291, Claude는 38.0%, 0.159를 기록했어요.
모든 모델은 비꼬임과 욕망을 잘 인식하지만, 사랑, 혼란, 수치심을 인식하는 데 어려움을 겪으며, Claude는 예측 불균형 편향을 보였어요.