연구진이 LLM의 감정 관리 능력을 평가하는 새로운 벤치마크 EIBench를 공개했어요. EIBench는 2,222개의 시나리오로 구성되어 있으며, 지원, 방어, 회복, 매력의 2x2 분류 체계를 사용해요.
EIBench는 평가 벤치마크이자 훈련 환경 역할을 하며, 시뮬레이터가 사용자 상태를 업데이트하고 최종 상태를 기준으로 점수를 매겨요.
Qwen3-8B 모델은 CTC-GRPO를 통해 EIBench 점수가 -22.4에서 +22.4로 향상되었고, SAGE와 EQBench3에서도 성능이 개선됐어요.
연구 결과, 시뮬레이터가 추적하는 사용자 상태는 다중 턴 감정 관리를 평가하고 훈련하는 데 도움이 될 수 있음을 보여줘요.