UXBench는 AI 어시스턴트의 사용자 경험(UX)을 평가하는 새로운 벤치마크입니다. 실제 사용자 피드백 신호에 기반하여 선호도 일치 및 대화 생성 능력을 평가하는 UX Judge, UX Eval, UX Recovery 3가지 작업으로 구성돼요.
중국 AI 어시스턴트의 7만 건 상호작용 로그에서 추출한 7,400개 테스트 인스턴스로, 8가지 시나리오와 83개 도메인을 포괄하며 다양한 실패 패턴을 반영합니다.
UXBench를 통해 LLM이 사용자 경험을 얼마나 잘 인식하는지, 모델 성능 향상이 대화 참여도를 높이는 데 어떻게 기여하는지 분석하고, LLM 평가 프로토콜의 편향성을 밝혀냈습니다.