LLM의 성능 향상과 함께 사용자 선호도에 따른 평가가 중요해지고 있어요. 기존 벤치마크는 사용자 선호도를 고려하지 않고 모델 순위를 매겨, 개인의 다양한 니즈를 반영하지 못하는 한계가 있어요.
ELO 레이팅과 Bradley-Terry 계수를 활용하여 115명의 Chatbot Arena 사용자 데이터를 분석한 결과, 개인별 모델 순위는 집계 순위와 큰 차이를 보였어요.
주제 및 작성 스타일 분석 결과, 사용자들의 다양한 관심사와 소통 방식이 모델 선호도에 영향을 미치는 것을 확인했으며, 이를 통해 개인별 모델 순위 예측이 가능했어요.