LLM 리더보드는 모델 비교 및 배포 결정에 널리 사용되지만, 벤치마크 설계자의 평가 우선순위에 따라 순위가 결정돼요. 연구진은 LMArena 벤치마크 데이터셋을 심층 분석하고, 사용자가 직접 평가 우선순위를 설정할 수 있는 인터페이스를 설계했어요. 이 인터랙티브 접근 방식은 투명성을 높이고 상황에 맞는 모델 평가를 지원하며, LLM 리더보드 설계 및 활용에 대한 대안을 제시합니다.